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FOREWORD 


从 过 去 的 几 十 年 以 来 ,计算 机 技术 的 进步 和 互联 网 的 发 展 极 大 地 改变 了 人 们 的 工作 和 
生活 方式 。 计 算 模式 也 经 历 了 从 最 初 的 把 任务 集中 交付 给 大 型 处 理 机 到 基于 网 络 的 分 布 式 
任务 处 理 再 到 目前 的 按 需 处 理 的 云 计算 方式 的 极 大 改变 。 自 2006 年 亚马逊 公司 推出 弹性 
计算 云 (EC2) 服 务 让 中 小 型 企业 能 够 按照 自己 的 需要 购买 亚马逊 数据 中 心 的 计算 能 力 后 ， 
云 计算 的 时 代 就 此 正式 来 临 ,“ 云 计算 ”的 概念 随 之 由 Google 公司 于 同年 提出 ,其 本 质 是 给 
用 户 提 供 像 传统 的 电 、 水 、 煤 气 一 样 的 按 需 计算 的 网 络 服 务 , 是 一 种 新 型 的 计算 使 用 方式 。 
它 以 用 户 为 中 心 , 使 互联 网 成 为 每 一 个 用 户 的 数据 中 心 和 计算 中 心 。 

互联 网 技术 不 断 发 展 , 各 种 技术 不 断 涌 现 , 其 中 大 数据 技术 已 成 为 一 颗 闪耀 的 新 星 。 我 
们 已 经 处 于 数据 世界 ,互联 网 每 天 产生 大 量 的 数据 ,利用 好 这 些 数据 可 以 给 我 们 的 生活 带 来 
巨大 的 变化 以 及 提供 极 大 的 便利 。 目 前 大 数据 技术 受到 越 来 越 多 的 机 构 重视 ,因为 大 数据 
技术 可 以 创造 出 巨大 的 利润 ,其 中 典型 代表 是 个 性 化 推荐 以 及 大 数据 精准 营销 。 

本 书 的 各 章 内 容 如 下 : 第 1 一 4 章 讲 述 云 计算 的 概念 和 原理 ,包括 云 计算 的 概论 、 基 础 、 
虚拟 化 、 应 用 ; 第 5 一 8 章 讲 述 大 数据 概述 及 基础 ,包括 大 数据 概念 和 发 展 背景 ,大 数据 系统 
架构 概述 、 分 布 式 通信 与 协同 .大 数据 存储 ; 第 9 一 13 章 讲 述 大 数据 处 理 , 包 括 分 布 式 处 理 、 
Hadoop MapReduce 解析 .Spark 解析 、 流 计算 、 集 群 资源 管理 与 调度 ; 第 14 章 讲述 综合 实 
ERCE OpenStack 平台 上 搭建 Hadoop 并 进行 数据 分 析 ) 。 

本 书 对 云 计 算 和 大 数据 的 概念 和 基础 讲解 详细 ,力求 通过 实例 进行 描述 ,并 可 通过 综合 
实践 篇 章 将 理论 联系 实际 ,适合 计算 机 相关 专业 的 读者 ,以 及 计算 机 爱好 者 阅读 和 参考 。 本 
书 的 作者 为 吕 云 翔 . 钟 巧 灵 、 张 璐 、 王 佳 玮 ,另外 , 曾 洪 立 、. 吕 彼 佳 . 姜 彦 华 进行 了 素材 整理 及 
配套 资源 制作 等 。 

在 本 书 的 编写 过 程 中 ,我 们 尽量 做 到 仔细 认真 ,但 由 于 我 们 的 水 平 有 限 , 书 中 还 是 可 能 
会 出 现 一 些 政 漏 与 不 妥 之 处 ,在 此 非常 欢迎 广大 读者 进行 批评 指正 。 同 时 也 希望 广大 读者 
可 以 将 自己 读书 学 习 的 心得 体会 反馈 给 我 们 (yunxianglu@hotmail. com) 。 


作 者 
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云 计 算 概论 





本 章 介 绍 云 计算 的 定义 , 旨 在 让 读者 对 云 计算 有 一 个 宏观 的 概念 ,然后 介绍 云 计算 的 产 
生 背 景 ,接着 介绍 云 计算 的 发 展 历史 。 通 过 本 章 的 学 习 , 读 者 将 对 云 计算 有 一 个 初步 的 
认识 。 


1.1 什么 是 云 计 算 


云 计算 (Cloud Computing) 是 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 模式 ,通常 涉 
及 通过 互联 网 来 提供 动态 易 扩展 且 经 常 是 虚拟 化 的 资源 。 云 是 网 络 、 互 联网 的 一 种 比喻 说 
法 。 过 去 往往 用 云 来 表示 电信 网 ,后 来 也 用 来 表示 互联 网 和 底层 基础 设施 的 抽象 。 因 此 , 云 
计算 甚至 可 以 让 人 们 体验 每 秒 10 万 亿 次 的 运算 能 力 ,拥有 这 么 强大 的 计算 能 力 可 以 模拟 核 
爆炸 、 预 测 气 候 变 化 和 市 场 发 展 趋势 。 用 户 可 通过 计算 机 、 笔 记 本 、 手 机 等 方式 接 入 数据 中 
心 , 按 自己 的 需求 进行 运算 。 

对 云 计算 的 定义 有 多 种 说 法 。 对 于 到 底 什么 是 云 计算 ,至 少 可 以 找到 100 种 解释 。 现 
阶段 广 为 接 受 的 是 美国 国家 标准 与 技术 研究 院 (NIST) 的 定义 : 云 计 算是 一 种 按 使 用 量 付 
费 的 模式 ,这 种 模式 提供 可 用 的 ,便捷 的 、 按 需 的 网 络 访问 ,进入 可 配置 的 计算 资源 共享 池 
(资源 包括 网 络 、 服 务 器 存储 、 应 用 软件 ,服务 ) ,这 些 资源 能 够 被 快速 提供 ,只 需 投 入 很 少 的 
管理 工作 ,或 与 服务 供应 商 进行 很 少 的 交互 。 


1.2 云 计算 的 产生 背景 





云 计 算是 继 20 世纪 80 年 代 大 型 计算 机 到 客户 /服务 器 的 大 转变 之 后 的 又 一 种 巨变 。 
云 计算 是 分 布 式 计算 (Distributed Computing) 并行 计算 (Parallel Computing) ,效用 
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计算 〈 Utility Computing )、 网 络 存 储 (Network Storage Technologies)、 虚 拟 化 
(Virtualization) 、 负 和 载 均 衡 (Load Balance) 、 热 备份 元 余 (High Available) 等 传统 计算 机 和 网 
络 技 术 发 展 融合 的 产物 。 


1.3 云 计 算 的 发 展 历史 


1983 年 ,太阳 微 系 统 公司 (Sun Microsystems) 提 出 “网 络 是 计算 机 ”的 概念 ,2006 年 3 
月 ,亚马逊 公司 (Amazon) 推 出 弹性 计算 云 (Elastic Compute Cloud,EC2) 服 务 。 

2006 年 8 月 9 日 ,Google 公司 首席 执行 官 埃 里 克 ， 施 密 特 (Eric Schmidt) 在 搜索 引擎 
大 会 (SES San Jose 2006) 首 次 提出 云 计算 的 概念 。Google* 云 端 计算 ” 源 于 Google 工程 师 
克里斯托弗 。 比 希 利 亚 所 做 的 Google 101 项 目 。 

2007 年 10 月 ,Google 与 IBM 公司 开始 在 美国 大 学 校园 ,包括 卡 内 基 。 梅 隆 大 学 、. 麻 省 
理工 学 院 、 斯 坦 福 大 学 、 加 州 大 学 伯克利 分 校 及 马里 兰 大 学 等 ,推广 云 计算 的 计划 ,这 项 计划 
希望 能 降低 分 布 式 计算 技术 在 学 术 研 究 方 面 的 成 本 ,并 为 这 些 大 学 提供 相关 的 软 硬 件 设备 
及 技术 支持 (包括 数 百 台 个 人 计算 机 及 BladeCenter 与 System x 服务 器 ,这 些 计算 平台 将 提 
供 1600 个 处 理 器 ,支持 包括 Linux, Xen, Hadoop 等 开放 源 代 码 平台 )。 而 学 生 则 可 以 通过 
网 络 开发 各 项 以 大 规模 计算 为 基础 的 研究 计划 。 

2008 年 1 月 30 日 ,Google 公司 宣 布 在 中 国 台 湾 启动 * 云 计算 学 术 计 划 ”, 与 台湾 台大 、 
交大 等 学 校 合作 ,将 云 计 算 技术 推广 到 校园 的 学 术 研究 中 。 

2008 年 2 月 1 日 ,IBM 公司 宣布 将 在 中 国 无 锡 太 湖 新 城 科 教 产 业 园 为 中 国 的 软件 公司 
建立 全 球 第 一 个 云 计算 中 心 (Cloud Computing Center) 。 

2008 年 7 月 29 日 ,雅虎 .惠普 和 英特尔 公司 宣布 一 项 涵盖 美国 .德国 和 新 加 坡 的 联合 
研究 计划 ,推进 云 计算 的 研究 进程 。 该 计划 要 与 合作 伙伴 创建 6 个 数据 中 心 作 为 研究 实验 

E 台 ,每 个 数据 中 心 配 置 1400—4000 个 处 理 器 。 这 些 合作 伙伴 包括 新 加 坡 资讯 通信 发 展 管 
理 局 ,德国 卡尔 斯 鲁 厄 大 学 Steinbuch 计算 中 心 、 美 国 伊利 诺 伊 大 学 香槟 分 校 \ 英 特 尔 研究 
院 、 惠 普 实验 室 和 雅虎 。 

2008 年 8 月 3 日 ,美国 专利 商标 局 网 站 信息 显示 ,戴尔 正在 申请 云 计算 商标 ,此 举 旨 在 
加 强 对 这 一 未 来 可 能 重 塑 技术 架构 的 术语 的 控制 权 。 

2010 4E 3 H 5 日 ,Novell 公司 与 云 安全 联盟 (CSA) 共 同 宣布 一 项 供应 商 中 立 计划 ,名 
为 “可 信任 云 计算 计划 ”。 

2010 年 7 月 ,美国 国家 航空 航天 局 和 包括 Rackspace、AMD,Intel、 戴 尔 等 支持 厂商 共 
同 宣布 OpenStack 开放 源 代码 计划 ,微软 公司 在 2010 年 10 月 表示 支持 OpenStack 与 
Windows Server 2008 R2 的 集成 ; 而 Ubuntu 已 把 OpenStack 加 至 其 11. 04 版 本 中 。 

2011 年 2 月 ,思科 公司 正式 加 入 OpenStack ,重点 研制 OpenStack 的 网 络 服务 。 

2013 年 ,我国 的 IaaS( 基 础 设施 即 服务 ?市场 规 模 约 为 10. 5 亿 元 , 增 速 达到 了 10526 , 显 
示 出 旺盛 的 生机 。IaaS 相关 企业 不 仅 在 规模 ,数量 上 有 了 大 幅 提 升 ,而 且 吸 引 了 资本 市 场 
的 关注 ,UCloud、 青 云 等 IaaS 初创 企业 分 别 获得 了 千 万 美元 级 别 的 融资 。 

过 去 几 年 里 ,腾讯 .百度 等 互联 网 巨头 纷纷 推出 了 各 自 的 开放 平台 战略 。 新 浪 SAE 等 
PaaS( 平 台 即 服务 ) 的 先行 者 也 在 业务 拓展 上 取得 了 显著 的 成 效 ,在 众多 互联 网 巨头 的 介入 
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和 推动 下 ,我 国 PaaS 市 场 得 到 了 迅速 发 展 ,2013 年 市 场 规模 增长 近 20%。 但 由 于 目前 国内 
PaaS 仍 处 于 吸引 开发 者 和 产业 生态 培育 的 阶段 ,大 部 分 PaaS 都 采用 免费 或 低 收费 的 策略 ， 
因此 整体 市 场 规模 并 不 大 ,估计 约 为 2. 2 亿 元 人 民 币 ,但 这 并 不 妨碍 人 们 对 Paas 的 发 展 前 
景 抱 有 充足 的 信心 。 

无 论 是 国内 还 是 国外 ,SaaS( 软 件 即 服务 ) 一 直 是 云 计算 领域 最 为 成 熟 的 细 分 市 场 ,用 
户 对 于 SaaS 的 接受 程度 也 比较 高 。2015 年 ,SaaS 市 场 增长 率 达 到 117.5% ,市 场 规模 增长 
至 8.1 亿 元 人 民 币 。 

2015 年 以 来 , 云 计算 方面 的 相关 政策 不 断 。2015 年 年 初 ,国务 院 发 布 了 《国务 院 关 于 促 
进 云 计算 创新 发 展 培育 信息 产业 新 业态 的 意见 》, 明 确 了 我 国 云 计算 产业 的 发 展 目标 、 主 要 
任务 和 保障 措施 。2015 4E 7 月 ,国务 院 又 发 布 了 《关于 积极 推进 “互联 网 十 ”行动 的 指导 意 
见 》, 提 出 到 2025 年 ,“ 互 联网 十 ”成 为 经 济 社会 创新 发 展 的 重要 驱动 力量 。2015 年 11 月 ， 
工业 和 信息 化 部 印发 ( 云 计 算 综合 标准 化 体系 建设 指南 》。 


1.4 如 何 学 好 云 计算 








云 计 算是 一 种 基于 互联 网 的 计算 方式 ,要 实现 云 计算 则 需要 一 整套 的 技术 架构 ,包括 网 
络 、 服 务 器 、 存 储 、 虚 拟 化 等 。 云 计算 目前 分 为 公有 云 和 私有 云 。 两 者 的 区 别 只 是 提供 服务 
的 对 象 不 同 ,一 个 是 企业 内 部 使 用 ,一 个 则 是 面向 公众 。 目 前 企业 中 的 私有 云 都 是 通过 虚拟 
化 来 实现 的 ,建议 可 以 了 解 一 下 虚拟 化 行业 的 前 景 和 发 展 。 

虚拟 化 目前 分 为 服务 器 虚拟 化 (以 VMware 为 代表 )、 桌 面 虚拟 化 ( 思 杰 比 VMware 的 
优势 大 )、 应 用 虚拟 化 (以 思 杰 为 代表 )。 学 习 虚 拟 化 需要 的 基础 如 下 。 

(1) 操作 系统 。 了 解 Windows 操作 系统 (如 Windows Server 2008、Windows Server 
2003、Windows 7、Windows 8、Windows 10 等 ) 的 安装 和 基本 操作 、AD 域 角色 的 安装 和 管 
理 \ 组 策略 的 配置 和 管理 。 

(2) 数据 库 的 安装 和 使 用 (如 SQL Server) 。 

(3) 存储 的 基础 知识 (如 磁盘 性 能 .RAID、IOPS 文件 系统 .FC SAN, iSCSI, NAS 等 )、 
光纤 交换 机 的 使 用 、 使 用 Open E 管理 存储 。 

(4) 网 络 的 基础 知识 (如 IP 地 址 规划 、VLAN、Trunk、STP、Etherchannel)。 


习题 
1. 美国 国家 标准 与 技术 研究 院 (NIST) 是 如 何 定 义 云 计算 的 ? 


2. 云 计算 的 发 展 历史 经 历 了 哪些 过 程 ? 
3. 虚拟 化 指 的 是 什么 ? 
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本 章 主要 介绍 关于 云 计算 的 各 种 基础 知识 ,包括 分 布 式 计算 、 云 计算 的 基本 概念 、 实 现 
云 计算 的 几 种 关键 技术 以 及 云 交 付 和 部 署 模 式 , 同 时 介绍 云 计算 有 哪些 优势 、 面 临 的 挑战 以 
及 几 种 典型 的 云 应 用 。 通 过 本 童 的 学 习 , 读 者 应 能 够 对 云 计算 有 一 个 基本 的 认识 。 


2.1 分 布 式 计算 


分 布 式 计算 是 一 种 计算 方法 ,和 集中 式 计 算是 相对 的 。 随 着 计算 技术 的 发 展 ,一 些 应 用 
需要 巨大 的 计算 能 力 才能 完成 .如果 采用 集中 式 计算 , 则 需要 耗费 很 长 的 时 间 才 能 完成 。 而 
分 布 式 计算 将 应 用 分 解 成 许多 更 小 的 部 分 ,分 配 到 多 台 计 算 机 进行 处 理 , 这 样 可 以 节省 整体 
计算 时 间 , 大 大 提高 计算 效率 。 云 计算 是 分 布 式 计 算 技 术 的 一 种 ,也 是 分 布 式 计算 这 种 科学 

分 布 式 计算 的 优点 就 是 发 挥 “ 集 体 的 力量 ”. 将 大 任务 分 解 成 小 任务 ,分 配给 多 个 计算 节点 
同时 去 计算 。 分 布 式 计算 将 计算 扩展 到 多 台 计 算 机 ,甚至 是 多 个 网 络 ,在 网 络 上 有 序 地 执行 一 
个 共同 的 任务 ,当然 离 不 开 Web 技术 ,但 在 分 布 式 计算 发 展 起 来 之 前 的 网 络 协议 并 不 能 满足 
分 布 式 计算 的 要 求 , 于 是 产生 了 Web Service 技术 。 

分 布 式 计算 的 另 一 种 应 用 是 Web Service, Web 
Service 是 一 个 平台 独立 的 、 低 耦合 的 、 自 包含 的 、 基 发 现 
于 可 编程 的 Web 的 应 用 程序 ,可 使 用 开放 的 XML wspL, LDDI 
(标准 通用 标记 语言 下 的 一 个 子 集 ) 标 准 来 描述 、 发 
布 .发 现 .协调 和 配置 这 些 应 用 程序 ,用 于 开发 分 布 pË e 

服务 
描述 





发 布 
WSDL, UDDI 








式 的 、 互 操作 的 应 用 程序 。 
如 图 2-1 所 示 , Web Service 的 体系 结构 是 基于 
Web 服务 提供 者 、Web 服务 请 求 者 、Web 服务 注册 图 2-1 Web Service 的 体系 结构 
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中 心 三 个 角色 和 发 布 , 发 现 . 绑 定 三 个 动作 构建 的 。 简 单 地 说 , Web 服务 提供 者 就 是 Web 
服务 的 拥有 者 ,等待 为 其 他 服务 和 用 户 提供 自己 已 有 的 功能 ; Web 服务 请 求 者 就 是 Web AK 
务 功能 的 使 用 者 ,利用 SOAP 消息 向 Web 服务 提供 者 发 送 请 求 以 获得 服务 ; Web 服务 注册 
中 心 的 作用 是 把 一 个 Web 服务 请 求 者 与 合适 的 Web 服务 提供 者 联系 在 一 起 , 它 充 当 管理 
者 的 角色 ,一 般 是 UDDI(Universal Description Discovery and Integration) 。 这 三 个 角色 是 
根据 逻辑 关系 划分 的 ,在 实际 应 用 中 ,角色 之 间 很 可 能 有 交叉 : 一 个 Web 服务 既 可 以 是 
Web 服务 提供 者 ,也 可 以 是 Web 服务 请 求 者 ,或 者 二 者 兼 而 有 之 ,显示 了 Web 服务 角色 之 
间 的 关系 ,其 中 ,“ 发 布 " 是 为 了 让 用 户 或 其 他 服务 知道 某 个 Web 服务 的 存在 和 相关 信息 ; 
“发 现 ?是 为 了 找到 合适 的 Web 服务 ;“ 绑 定 ” 则 是 在 提供 者 与 请 求 者 之 间 建 立 某 种 联系 。 

简单 地 说 ,这 种 技术 的 功能 和 中 间 件 的 功能 有 相似 之 处 : Web Service 技术 是 屏蔽 掉 不 
同 开发 平台 开发 的 功能 模块 的 相互 调用 的 障碍 ,从 而 可 以 利用 HTTP 和 SOAP 使 商业 数据 
在 Web 上 传输 ,可 以 调用 这 些 开 发 平台 不 同 的 功能 模块 来 完成 计算 任务 。 这 样 看 来 ,要 在 
互联 网 上 实施 大 规模 的 分 布 式 计算 ,就 需要 Web Service 作 支 撑 。 


2.2 云 计算 的 基本 概念 


云 计算 已 经 成 为 一 个 大 众 化 的 词语 ,似乎 每 个 人 对 于 云 计算 的 理解 各 不 相同 ,第 1 章 已 
经 对 云 计算 有 一 个 宏观 的 概念 和 通俗 的 理解 ,如 图 2-2 所 示 , 云 计算 的 “ 云 " 就 是 存在 于 互联 
网 上 的 服务 器 集群 上 的 资源 , 它 包括 硬件 资源 (服务 器 存储 器 、CPU 等 ) 和 软件 资源 (应 用 
软件 、 集 成 开发 环境 等 ) ,本 地 计算 机 只 需要 通过 互联 网 发 送 一 个 需求 信息 , 远 端 就 有 成 千 上 
万 的 计算 机 为 用 户 提供 需要 的 资源 并 将 结果 返回 给 本 地 计算 机 。 这 样 ,本 地 计算 机 几乎 不 
需要 做 什么 ,所 有 的 处 理 都 在 云 计算 提供 商 所 提供 的 计算 机 群 来 完成 。 简 而 言 之 , 云 计 算是 
一 种 商业 计算 模型 , 它 将 计算 任务 分 布 在 大 量 计算 机 构成 的 资源 池上 ,使 用 户 能 够 按 需 获取 
计算 力 、 存 储 空间 和 信息 服务 。 








22 Bie 


最 简单 的 云 计算 技术 在 网 络 服务 中 已 经 随处 可 见 , 例 如 搜索 引擎 、 网 络 信箱 等 ,使 用 者 
只 需要 输入 简单 的 指令 即 能 得 到 大 量 信息 。 
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云 计 算 的 组 成 可 以 分 为 6 个 部 分 ,它们 由 下 至 上 分 别 是 : 基础 设施 (Infrastructure)、 存 
fi Storage) .平台 (Platform) |J FH (Application) | Ag (Services) #1% P? Sig (Clients) 。 

1. 基础 设施 

云 基 础 设施 (Infrastructure as a Service,IaaS) 是 经 过 虚拟 化 后 的 硬件 资源 和 相关 管理 
功能 的 集合 ,对 内 通过 虚拟 化 技术 对 物理 资源 进行 抽象 ,对 外 提供 动态 .灵活 的 资源 服务 。 
具体 用 于 如 Sun 公司 的 Sun 网 格 (Sun Gird) XE. 75 ith (Amazon) 的 弹性 计算 云 (Elastic 
Computer Cloud,EC2) 。 

2. 存储 

云 存储 涉及 提供 数据 存储 作为 一 项 服务 ,包括 类 似 数 据 库 的 服务 ,通常 以 使 用 的 存储 量 
为 结算 基础 。 全 球 网 络 存储 工业 协会 CSNIA ) 为 云 存储 建立 了 相应 标准 。 它 既 可 交付 作为 
云 计算 服务 ,又 可 以 交付 给 单纯 的 数据 存储 服务 。 具 体 应 用 如 亚马逊 简单 存储 服务 (Simple 
Storage Service, S3) ,Google 应 用 程序 引擎 的 BigTable 数据 存储 。 

3. 平台 

云 平台 (Platform as a Service, PaaS) 直接 提供 计算 平台 和 解决 方案 作为 服务 ,以 方便 
应 用 程序 部 署 , 从 而 节省 购买 和 管理 底层 硬件 和 软件 的 成 本 。 具 体 应 用 如 Google 应 用 程序 
引擎 (Google App Engine) ,这 种 服务 让 开发 人 员 可 以 编译 基于 Python 的 应 用 程序 ,并 可 免 
费 使 用 Google 的 基础 设施 来 进行 托管 。 

4. 应 用 

云 应 用 利用 云 软件 架构 ,往往 不 再 需要 用 户 在 自己 的 计算 机 上 安装 和 运行 该 应 用 程序 ， 
从 而 减轻 软件 维护 、 操 作 和 售后 支持 的 负担 。 具 体 应 用 如 Facebook 的 网 络 应 用 程序 、 
Google 的 企业 应 用 套件 (Google Apps). 

5. 服务 

云 服务 是 指 包 括 产品 、 服 务 和 解决 方案 都 实时 地 在 互联 网 上 进行 交付 和 使 用 。 这 些 服 
务 可 能 通过 访问 其 他 云 计算 的 部 件 , 例 如 软件 ,直接 和 最 终 用 户 通信 。 具 体 应 用 如 亚马逊 简 
单 排列 服务 (Simple Queuing Service)、 贝 宝 在 线 支付 系统 (PayPal)、Google 地 图 (Google 
Maps) 等 。 

6. 客户 端 

云 客户 端 包 括 专 为 提供 云 服 务 的 计算 机 硬件 和 计算 机 软件 终端 ,如 苹果 手机 (iPhone)、 
Google 浏览 器 (Google Chrome) 。 


2.3 云 计 算 的 关键 技术 


云 计算 是 一 种 新 型 的 超级 计算 方式 ,以 数据 为 中 心 ,是 一 种 数据 密集 型 的 超级 计算 。 云 
计算 的 目标 是 以 低 成 本 的 方式 提供 高 可 靠 ,高 可 用 、 规 模 可 伸缩 的 个 性 化 服务 ,要 实现 这 个 
目标 ,需要 分 布 式 海量 数据 存储 、 虚 拟 化 技术 、 云 平台 技术 、 并 行 编程 技术 、 数 据 管 理 技术 等 
若干 关键 技术 支持 。 
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2.3.1 分 布 式 海量 数据 存储 


随 着 信息 化 建设 的 不 断 深入 ,信息 管理 平台 已 经 完成 了 从 信息 化 建设 到 数据 积累 的 
职能 转变 ,在 一 些 信息 化 起 步 较 早 、 系 统 建设 较 规范 的 行业 ,如 通信 、 金 融和 大 型 生产 制 
造 等 领域 ,海量 数据 的 存储 、 分 析 需 求 的 迫切 性 日 益 明 显 。 以 移动 通信 运营 商 为 例 , 随 
着 移动 业务 和 用 户 规模 的 不 断 扩大 ,每 天 都 产生 海量 的 业务 、 计 费 以 及 网 管 数据 ,然而 
庞大 的 数据 量 使 得 传统 的 数据 库存 储 已 经 无 法 满足 存储 和 分 析 需 求 。 主 要 面临 的 问 
题 如 下 。 

1. 数据 库容 量 有 限 

关系 型 数据 库 并 不 是 为 海量 数据 而 设计 的 ,设计 之 初 并 没有 考虑 到 数据 量 能 够 庞大 到 
PB 级 。 为 了 继续 支撑 系统 ,不 得 不 进行 服务 器 升级 和 扩容 ,成 本 高 昂 , 难 以 接受 。 

2. 并 行 取 数 困难 

除了 分 区 表 可 以 并 行 取 数 外 ,其 他 情况 都 要 对 数据 进行 检索 才能 将 数据 分 块 ,并 行 读数 
效果 不 明显 ,甚至 增加 了 数据 检索 的 消耗 。 虽 然 可 以 通过 索引 来 提升 性 能 ,但 实际 业务 证 
明 ,数据 库 索 引 的 作用 有 限 。 

3. 针对 J2EE 应 用 来 说 JDBC 的 访问 效率 太 低 

由 于 Java 的 对 象 机 制 , 读 取 的 数据 都 需要 序列 化 ,导致 读数 速度 很 慢 。 

4. 数据 库 并 发 访问 数 太 多 

由 于 数据 库 并 发 访问 数 太 多 ,导致 IO 瓶颈 和 数据 库 的 计算 负担 太 重 两 个 问题 ,甚至 
出 现 内 存 浇 出 崩溃 等 现象 ,但 数据 库 扩 容 成 本 大 高 。 

理想 的 解决 方案 是 把 大 数据 存储 到 分 布 式 文件 系统 中 , 云 计算 系统 由 大 量 服务 器 组 成 ， 
同时 为 大 量 用 户 服务 ,因此 云 计算 系 统 采用 分 布 式 存 储 的 方式 存储 数据 ,用 元 余 存 储 的 方式 
(集群 计算 ,数据 元 余 和 分 布 式 存储 ) 保 证 数据 的 可 靠 性 。 通 过 任务 分 解 和 集群 ,用 低 配 机 器 
替代 超级 计算 机 来 保证 低 成 本 ,这 种 方式 保证 分 布 式 数 据 的 高 可 用 、 高 可 靠 和 经 济 性 , 即 为 
同一 份 数据 存储 多 个 副本 。 云 计算 系统 中 广泛 使 用 的 数据 存储 系统 是 Google 的 GFS 和 
Hadoop 团队 开发 的 GFS 的 开源 实现 HDFS。 


2.3.2 虚拟 化 技术 


虚拟 化 技术 是 云 计算 系统 的 核心 组 成 部 分 之 一 ,是 将 各 种 计算 及 存储 资源 充分 整合 和 
高 效 利用 的 关键 技术 。 云 计算 的 虚拟 化 技术 不 同 于 传统 的 单一 虚拟 化 , 它 是 涵盖 整个 IT 
架构 的 ,包括 资源 、 网 络 、 应 用 和 桌面 在 内 的 全 系统 虚拟 化 。 通 过 虚拟 化 技术 可 以 实现 将 所 
有 硬件 设备 软件 应 用 和 数据 隔离 开 来 ,打破 硬件 配置 .软件 部 署 和 数据 分 布 的 界限 ,实现 
IT 架构 的 动态 化 ,实现 资源 集中 管理 ,使 应 用 能 够 动态 地 使 用 虚拟 资源 和 物理 资源 ,提高 系 
统 适应 需求 和 环境 的 能 力 。 虚 拟 化 技术 可 以 提供 以 下 特点 。 

1. 资源 分 享 

通过 虚拟 机 封装 用 户 各 自 的 运行 环境 ,有 效 实现 多 用 户 分 享 数据 中 心 资源 。 
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2. 资源 定制 

用 户 利用 虚拟 化 技术 ,配置 科 有 的 服务 器 ,指定 所 需 的 CPU 数目 内存 容量 、 磁 盘 空 
fa] ,实现 资源 的 按 需 分 配 。 

3. 细 粒 度 资源 管理 

将 物理 服务 器 拆 分 成 若干 虚拟 机 ,可 以 提高 服务 器 的 资源 利用 率 ,减少 浪费 ,而 且 有 助 
于 服务 器 的 负载 均衡 和 节能 。 

基于 以 上 特点 ,虚拟 化 技术 成 为 实现 云 计算 资源 池 化 和 按 需 服务 的 基础 。 


2.3.3 云 平台 技术 


云 计算 资源 规模 庞大 ,服务 器 数量 众多 且 分 布 在 不 同 的 地 点 ,同时 运行 着 数 百 种 应 用 ， 
如 何 有 效 地 管理 这 些 服务 器 ,保证 整个 系统 提供 不 间断 的 服务 是 巨大 的 挑战 。 

云 平 台 技术 能 够 使 大 量 的 服务 器 协同 工作 ,方便 地 进行 业务 部 署 ,快速 发 现 和 恢复 系统 
故障 ,通过 自动 化 ,智能 化 的 手段 实现 大 规模 系统 的 可 靠 运营 。 

云 计算 平台 的 主要 特点 是 用 户 不 必 关 心 云 平台 底层 的 实现 。 用 户 使 用 平台 ,或 使 用 云 
平台 发 布 第 三 方 应 用 的 开发 者 (服务 提供 商 , 或 者 云 平台 用 户 ) 只 需要 调用 平台 提供 的 接口 
就 可 以 在 云 平台 中 完成 自己 的 工作 。 利 用 虚拟 化 技术 , 云 平台 提供 商 可 以 实现 按 需 提供 服 
务 , 这 一 方面 降低 了 云 的 成 本 , 另 一 方面 保证 了 用 户 的 需求 得 到 满足 。 云 平台 基于 大 规模 的 
数据 中 心 或 者 网 络 ,因此 云 平 台 可 以 提供 高 性 能 的 计算 服务 ,并 且 对 于 云 平台 用 户 , 云 的 资 
源 几乎 是 无 限 的 。 


2.3.4 并 行 编程 技术 


目前 两 种 最 重要 的 并 行 编程 模型 是 数据 并 行 和 消息 传递 。 数 据 并 行 编程 模型 的 编程 级 
别 比较 高 ,编程 相对 简单 ,但 它 仅 适用 于 数据 并 行 问题 ; 消息 传递 编程 模型 的 编程 级 别 相 对 
较 低 ,但 消息 传递 编程 模型 可 以 有 更 广泛 的 应 用 范围 。 

数据 并 行 编程 模型 是 一 种 较 高 层次 上 的 模型 , 它 提供 给 编程 者 一 个 全 局 的 地 址 空间 ,一 
般 这 种 形式 的 语言 本 身 就 提供 并 行 执行 的 语义 ,因此 对 于 编程 者 来 说 ,只 需要 简单 地 指明 执 
行 什么 样 的 并 行 操作 和 并 行 操作 的 对 象 ,就 实现 了 数据 并 行 的 编程 。 例 如 ,对 于 数组 运算 ， 
使 得 数组 B 和 C 的 对 应 元 素 相 加 后 送 给 A , 则 通过 语句 A=B 十 C 或 其 他 的 表达 方式 ,就 能 
够 实现 上 述 功 能 ,使 并 行 机 对 B.C 的 对 应 元 素 并 行 相 加 ,并 将 结果 并 行 赋 给 A。 因 此 数据 
并 行 的 表达 是 相对 简单 和 简洁 的 , 它 不 需要 编程 者 关心 并 行 机 是 如 何 对 该 操作 进行 并 行 执 
行 的 。 数 据 并 行 编程 模型 虽然 可 以 解决 一 大 类 科学 与 工程 计算 问题 ,但 是 对 于 非 数据 并 行 
类 的 问题 ,如 果 通 过 数据 并 行 的 方式 来 解决 ,一 般 难以 取得 较 高 的 效率 。 

消息 传递 是 各 个 并 行 执行 的 部 分 之 间 通 过 传递 消息 来 交换 信息 、 协 调 步伐 、 控 制 执行 ， 
消息 传递 一 般 是 面向 分 布 式 内 存 的 ,但 是 它 也 可 适用 于 共享 内 存 的 并 行 机 。 消 息 传递 为 纺 
程 者 提供 了 更 灵活 的 控制 手段 和 表达 并 行 的 方法 ,一 些 用 数据 并 行 方法 很 难 表 达 的 并 行 算 
法 ,都 可 以 用 消息 传递 模型 来 实现 灵活 性 和 控制 手段 的 多 样 化 ,是 消息 传递 并 行程 序 能 提供 
高 的 执行 效率 的 重要 原因 。 

消息 传递 模型 一 方面 为 编程 者 提供 了 灵活 性 , 另 一 方面 , 它 也 将 各 个 并 行 执行 部 分 之 间 
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复杂 的 信息 交换 和 协调 .控制 的 任务 交 给 了 编程 者 ,这 在 一 定 程 度 上 增加 了 编程 者 的 负担 ， 
这 也 是 消息 传递 编程 模型 编程 级 别 低 的 主要 原因 。 虽然 如 此 ,消息 传递 的 基本 通信 模式 是 
简单 和 清楚 的 ,学 习 和 掌握 这 些 部 分 并 不 困难 。 因 此 ,目前 大 量 的 并 行程 序 设计 仍然 是 消息 
传递 并 行 编程 模式 。 

云 计 算 采 用 并 行 编程 模式 。 在 并 行 编程 模式 下 ,并 发 处 理 , 容 错 、 数 据 分 布 .负载 均衡 等 
细节 都 被 抽象 到 一 个 函数 库 中 ,通过 统一 接口 ,用户 大 尺度 的 计算 任务 被 自动 并 发 和 分 布 执 
行 , 即 将 一 个 任务 自动 分 成 多 个 子 任务 ,并 行 地 处 理 海量 数据 。 


2.3.5 数据 管理 技术 


云 计 算 系 统 对 大 数据 集 进行 处 理 、 分 析 , 向 用 户 提 供 高 效 的 服务 。 因 此 ,数据 管理 技术 
必须 能 够 高 效 地 管理 大 数据 集 。 其 次 ,如 何在 规模 巨大 的 数据 中 找到 特定 的 数据 ,也 是 云 计 
算数 据 管 理 技 术 所 必须 解决 的 问题 。 

应 用 于 云 计算 的 数据 管理 技术 最 常见 的 是 Google 的 BigTable 数据 管理 技术 ,由 于 采 
用 列 存储 的 方式 管理 数据 ,如 何 提高 数据 的 更 新 速率 以 及 进一步 提高 随机 读 取 速 率 是 未 来 
的 数据 管理 技术 必须 解决 的 问题 。 

Google 提出 的 BigTable 技术 是 建立 在 GFS 和 MapReduce 之 上 的 一 个 大 型 的 分 布 式 
数据 库 。BigTable 实际 上 是 一 个 很 庞大 的 表 , 它 的 规模 可 以 超过 1PB(1024TB) , 它 将 所 有 
数据 都 作为 对 象 来 处 理 ,形成 一 个 巨大 的 表格 。Google 对 BigTable 给 出 了 如 下 定义 : 
BigTable 是 一 种 为 了 管理 结构 化 数据 而 设计 的 分 布 式 存储 系统 ,这 些 数据 可 以 扩展 到 非常 
大 的 规模 ,例如 在 数 千 台 商用 服务 器 上 的 达到 PB 规模 的 数据 。 现 在 有 很 多 的 Google 的 应 
用 程序 建立 在 BigTable 之 上 ,例如 Google Earth 等 ,而 基于 BigTable 模型 实现 的 HBase 也 
在 越 来 越 多 的 应 用 中 发 挥 作用 。 


2.4 云 交 付 模型 


根据 现在 最 常用 ,也 是 比较 权威 的 美国 国家 标准 技术 研究 院 (National Institute of 
Standards and Technology, NIST) 的 定义 , 云 计算 主要 分 为 三 种 交付 模型 ,而 且 这 三 种 交付 
模型 主要 是 从 用 户 体 验 的 角度 出 发 的 。 

如 图 2-3 所 示 ,这 三 种 交付 模型 分 别 是 软件 即 服务 (Software as a Service. SaaS) ,平台 
即 服务 (Platform as a Service, PaaS) 和 基础 设施 即 服务 (Infrastructure as a Service. IaaS) 。 
对 普通 用 户 而 言 , 他 们 主要 面 对 的 是 SaaS 这 种 服务 模式 ,而且 几乎 所 有 的 云 计 算 服 务 最 终 
的 呈现 形式 都 是 SaaS。 除 此 之 外 ,在 2.4.5 节 将 介绍 一 种 新 型 的 交付 模型 : CaaS( 容 器 即 
服务 ) , 它 是 以 容器 为 核心 的 公有 云 平台 , 它 被 认为 是 云 服 务 中 具有 革命 性 的 突破 。 


2.4.1 软件 即 服务 


SaaS 是 Software as a Service( 软 件 即 服务 ) 的 简称 , 它 是 一 种 通过 Internet 提供 软件 的 
模式 ,用 户 无 须 购买 软件 ,而 是 向 提供 商 租 用 基于 Web 的 软件 ,来 管理 企业 经 营 活动 。 相 对 
于 传统 的 软件 ,SaaS 解决 方案 有 明显 的 优势 ,包括 较 低 的 前 期 成 本 、 便 于 维护 、 快 速 展 开 使 
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图 2-3 云 计算 三 大 交付 模型 


用 、 由 服务 提供 商 维 护 和 管理 软件 ,并 且 提 供 软 件 运 行 的 硬件 设施 ,用 户 只 需 拥有 接 入 互联 
网 的 终端 , 即 可 随时 随地 使 用 软件 。SaaS 软件 被 认为 是 云 计算 的 典型 应 用 之 一 。 

SaaS 的 主要 功能 如 下 。 

(1) 随时 随地 访问 : 在 任何 时 候 , 任 何 地 点 ,只 要 接 上 网 络 ,用 户 就 能 访问 SaaS. 

(2) 支持 公开 协议 : 通过 支持 公开 协议 (例如 HTML4/5) ,能 够 方便 用 户 使 用 。 

(3) 安全 保障 : SaaS 供应 商 需要 提供 一 定 的 安全 机 制 ,不仅 要 使 存储 在 云端 的 用 户 数 
据 处 于 绝对 安全 的 境地 ,而 且 也 要 在 客户 端 实施 一 定 的 安全 机 制 (例如 HTTPS) 来 保护 
HP, 

(4) 多 用 户 : MultiTenant 机 制 ,通过 多 用 户 机 制 , 不 仅 能 更 经 济 地 支持 庞大 的 用 户 规 
模 , 而 且 能 提供 一 定 的 可 指定 性 以 满足 用 户 的 特殊 需求 。 

用 户 消 费 的 服务 完全 是 从 网 页 如 Netflix, MOG, Google Apps, Box. net, Dropbox 或 者 
苹果 公司 的 iCloud 那里 进入 这 些 分 类 。 尽 管 这 些 网 页 服务 是 用 作 商 务 或 娱乐 或 者 两 者 都 
有 ,但 这 也 算是 云 技术 的 一 部 分 。 

一 些 用 作 商 务 的 SaaS 应 用 包括 Citrix 公司 的 GoToMeeting, Cisco 公司 的 WebEx, 
Salesforce 公司 的 CRM, ADP, Workday 和 SuccessFactors. 


2.4.2 平台 即 服务 


通过 网 络 进行 程序 提供 的 服务 称 为 SaaS, 而 相应 地 ,将 服务 器 平台 或 者 开发 环境 作为 
服务 进行 提供 就 是 PaaS(Platform as a Service) 。 所 谓 PaaS 实际 上 是 指 将 软件 研发 的 平台 
作为 一 种 服务 ,以 SaaS 的 模式 提交 给 用 户 。 因 此 ,PaaS 也 是 SaaS 模式 的 一 种 应 用 。 但 是 ， 
PaaS 的 出 现 可 以 加 快 SaaS 的 发 展 ,尤其 是 加 快 SaaS 应 用 的 开发 速度 。 
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在 云 计算 应 用 的 大 环境 下 ,PaaS 的 优势 显而易见 。 


(1) 开发 简单 。 因 为 开发 人 员 能 限定 应 用 自 带 的 操作 系统 、 中 间 件 和 数据 库 等 软件 的 
版 本 ,例如 SLES 11、WAS 7 和 DB2 9. 7 等, 这样 将 非常 有 效 地 缩小 开发 和 测试 的 范围 ,从 
而 极 大 地 降低 开发 测试 的 难度 和 复杂 度 。 

(2) 部 署 简单 。 首 先 , 如 果 使 用 虚拟 器 件 方式 部 署 的 话 , 能 将 本 来 需要 几 天 的 工作 缩短 
到 几 分 钟 ,能 将 本 来 的 几 十 步 操作 精简 到 轻 轻 一 击 。 其 次 ,能 非常 简单 地 将 应 用 部 署 或 者 迁 
移 到 公有 云 上 ,以 应 对 突 发 情况 。 

(3) 维护 简单 。 因 为 整个 虚拟 器 件 都 是 来 自 于 同一 个 ISV( 独 立 软件 商 ), 所 以 任何 软 
件 的 升级 和 技术 支持 ,都 只 要 和 一 个 ISV 联系 就 可 以 了 ,不 仅 避 免 了 常见 的 沟通 不 当 现象 ， 
而 且 简 化 了 相关 流程 。 

PaaS 的 主要 功能 如 下 。 

(1) 有 好 的 开发 环境 : 通过 SDK 和 IDE 等 工具 来 让 用 户 能 在 本 地 方便 地 进行 应 用 的 
开发 和 测试 。 

(2) 丰富 的 服务 : PaaS 平台 会 以 API 的 形式 经 各 种 各 样 的 服务 提供 给 上 层 应 用 。 

(3) 自动 的 资源 调度 : 也 就 是 可 伸缩 特性 , 它 不 仅 能 优化 系统 资源 ,而 且 能 自动 调整 资 
源 来 帮助 运行 于 其 上 的 应 用 更 好 地 应 对 突 发 流量 。 

CD 精细 的 管理 和 监控 : 通过 PaaS 能 够 提供 应 用 层 的 管理 和 监控 ,例如 ,能 够 观察 应 
用 运行 的 情况 和 具体 数值 (例如 吞吐 量 和 反映 时 间 ) 来 更 好 地 衡量 应 用 的 运行 状态 ,还 有 能 
够 通过 精确 计量 应 用 使 用 所 消耗 的 资源 来 更 好 地 计 费 。 

PaaS 公司 在 网 上 提供 各 种 开发 和 分 发 应 用 的 解决 方案 ,例如 虚拟 服务 器 和 操作 系统 。 
这 节省 了 用 户 在 硬件 上 的 费用 ,也 让 分 散 的 工作 室 之 间 的 合作 变 得 更 加 容易 。 这 些 解 决 方 
案 包括 网 页 应 用 管理 ,应 用 设计 、 应 用 虚拟 主机 、 存 储 、 安 全 以 及 应 用 开发 协作 工具 等 。 

一 些 大 的 PaaS 提供 者 有 Google App Engine, Microsoft Azure, Force. com, Heroku, 
Engine Yard, AppFog, Mendix 和 Standing Cloud 等 。 


2.4.3 基础 设施 即 服务 


IaaS 是 Infrastructure as a Service( 基 础 设施 即 服 务 ) 的 简称 。IaaS 使 消费 者 可 以 通过 
Internet 从 完善 的 计算 机 基础 设施 获得 服务 。 基 于 Internet 的 服务 (如 存储 和 数据 库 ) 是 
TaaS 的 一 部 分 。 在 IaaS 模式 下 ,服务 提供 商 将 多 台 服 务 器 组 成 的 “云端 "服务 (包括 内 存 、 
1O 设备 ,存储 和 计算 能 力 等 ) 作 为 计量 服务 提供 给 用 户 。 其 优点 是 用 户 只 需 提供 低 成 本 硬 
件 , 按 需 租 用 相应 的 计算 能 力 和 存储 能 力 即 可 。 

TaaS 的 主要 功能 如 下 。 

(1) 资源 抽象 : 使 用 资源 抽象 的 方法 ,能 更 好 地 调度 和 管理 物理 资源 。 

(2) 负载 管理 : 通过 负载 管理 ,不 仅 使 部 署 在 基础 设施 上 的 应 用 能 更 好 地 应 对 突 发 情 
况 , 而 且 还 能 更 好 地 利用 系统 资源 。 

(3) 数据 管理 : 对 云 计算 而 言 ,数据 的 完整 性 ,可靠 性 和 可 管理 性 是 对 Taas 的 基本 
要 求 。 

(4) 资源 部 署 : 也 就 是 将 整个 资源 从 创建 到 使 用 的 流程 自动 化 。 

(5) 安全 管理 : IaaS 安全 管理 的 主要 目标 是 保证 基础 设施 和 其 提供 资源 被 合法 地 访问 
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和 使 用 。 

(6) 计 费 管理 : 通过 细致 的 计 费 管理 能 使 用 户 更 灵活 地 使 用 资源 。 

以 前 如 果 用 户 想 在 办 公 室 或 者 公司 的 网 站 上 运行 一 些 企业 应 用 ,需要 去 买 服务 器 ,或 者 
别 的 高 昂 的 硬件 来 控制 本 地 应 用 ,让 业务 运行 起 来 。 但 是 使 用 IaaS, 用 户 可 以 将 硬件 外 包 
到 别 的 地 方 去 。IaaS 公司 会 提供 场 外 服务 器 存储 和 网 络 硬件 ,用 户 可 以 租用 。 这 样 就 节 
省 了 维护 成 本 和 办 公 场 地 ,并 可 以 在 任何 时 候 利 用 这 些 硬件 来 运行 其 应 用 。 

一 些 大 的 IaaS 公司 包括 Amazon 公司 ,微软 公司 VMware 4 +], Rackspace 公司 和 
Red Hat 公司 等 。 不 过 这 些 公 司 又 都 有 自己 的 专长 ,例如 ,Amazon 公司 和 微软 公司 提供 的 
不 只 是 IaaS ,它们 还 会 将 其 计算 能 力 出 租 给 用 户 来 管理 用 户 的 网 站 。 


2.4.4 基本 云 交付 模型 的 比较 


三 个 交付 模型 之 间 没 有 必然 的 联系 ,只 是 三 种 不 同 的 服务 模式 ,都 是 基于 互联 网 , 按 需 
按时 付费 ,就 像 水 、 电 煤气 一 样 。 但 是 在 实际 的 商业 模式 中 ,PaaS 的 发 展 确实 促进 了 SaaS 
的 发 展 ,因为 提供 了 开发 平台 后 ,SaaS 的 开发 难度 就 降低 了 。 

CD 从 用 户 体验 角度 而 言 ,它们 之 间 的 关系 是 独立 的 ,因为 它们 面 对 的 是 不 同 的 用 户 。 

C2) 从 技术 角度 而 言 , 它 们 并 不 是 简单 的 继承 关系 ,首先 ,SaaS 可 以 是 基于 PaaS 或 者 
直接 部 署 于 IaaS 之 上 ,其 次 ,PaaS 可 以 构建 于 IaaS 之 上 ,也 可 以 直接 构建 在 物理 资源 之 上 。 

通过 对 交付 模型 进行 分 析 , 表 2-1 对 三 种 基本 交付 模型 进行 了 比较 。 


表 2-1 三 种 交付 模型 的 比较 
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这 三 种 交付 模型 都 是 采用 外 包 的 方式 ,减轻 去 用户 的 负担 ,降低 管理 ,维护 服务 器 硬件 、 
网 络 硬 件 、 基 础 架构 软件 和 应 用 软件 的 人 力 成 本 。 从 更 高 的 层次 上 看 ,它们 都 试图 去 解决 同 
一 个 问题 一 一 用 尽 可 能 少 甚至 零 资本 支出 ,获得 功能 ,扩展 能 力 、 服 务 和 商业 价值 。 成 功 的 
SaaS 和 IaaS 可 以 很 容易 地 延伸 到 平台 领域 。 


2.4.5 容器 即 服务 


容器 即 服务 (Container as a Service,CaaS) 也 称 为 容器 云 ,是 以 容器 为 资源 分 割 和 调度 
的 基本 单位 ,封装 整个 软件 运行 时 环境 ,为 开发 者 和 系统 管理 员 提 供用 于 构建 发 布 和 运行 
分 布 式 应 用 的 平台 。CaaS 具备 一 套 标准 的 镜像 格式 ,可 以 把 各 种 应 用 打包 成 统一 的 格式 ， 
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并 在 任意 平台 之 间 部 署 迁移 ,容器 服务 之 间 又 可 以 通过 地 址 、 端 口服 务 来 互相 通信 ,做 到 既 
有 序 又 灵活 ; 既 支持 对 应 用 的 无 限定 制 ,又 可 以 规范 服务 的 交互 和 编排 。 

容器 云 的 Docker 容器 几乎 可 以 在 任意 的 平台 上 运行 ,包括 物理 机 、 虚 拟 机 、 公 有 云 、 私 
有 云 .个 人 计算 机 、 服 务 器 等 。 这 种 兼容 性 可 以 让 用 户 把 一 个 应 用 程序 从 一 个 平台 直接 迁移 
到 另外 一 个 。 容 器 云 的 这 种 特性 类 似 于 Java 的 JVM, Java 程序 可 以 运行 在 任意 的 安装 了 
JVM 的 设备 上 ,在 迁移 和 扩展 方面 变 得 更 加 容易 。CaaS 与 IaaS 和 PaaS 的 关系 如 下 。 

作为 后 起 之 秀 的 CaaS, 它 介 于 laas 和 PaaS 之 间 ,起 到 了 屏蔽 底层 系统 IaaS, 支 撑 并 丰 
富 上 层 应 用 平台 Paas 的 作用 。 

CaaS 解决 了 IaaS 和 PaaS 的 一 些 核 心 问题 ,例如 ,TaaS 很 大 程度 上 仍然 只 是 提供 机 器 
和 系统 ,需要 自己 把 控 资 源 的 管理 .分 配 和 监控 ,没有 减少 使 用 成 本 ,对 各 种 业务 应 用 的 支持 
也 非常 有 限 ; 而 PaaS 的 侧重 点 是 提供 对 主流 应 用 平台 的 支持 ,其 没有 统一 的 服务 接口 标 
准 , 不 能 满足 个 性 化 的 需求 。CaaS 的 提出 可 谓 是 应 运 而 生 , 以 容器 为 中 心 的 CaaS 很 好 地 将 
底层 的 IaaS 封装 成 一 个 大 的 资源 池 , 用 户 只 要 把 自己 的 应 用 部 署 到 这 个 资源 池 中 ,不 再 需 
要 关心 资源 的 申请 管理 ,以 及 与 业务 开发 无 关 的 事情 。 


2.5 云 部 署 模式 


部 署 云 计算 服务 的 模式 有 三 大 类 : 公有 云 . 私 有 云 和 混合 云 。 如 图 2-4 所 示 , 公 有 云 是 
云 计算 服务 提供 商 为 公众 提供 服务 的 云 计算 平台 ,理论 上 任何 人 都 可 以 通过 授权 接 入 该 平 
人 台 。 公 有 云 可 以 充分 发 挥 云 计算 系统 的 规模 经 济 效益 ,但 同时 也 增加 了 安全 风险 。 私 有 云 
则 是 云 计算 服务 提供 商 为 企业 在 其 内 部 建设 的 专 有 云 计 算 系 统 。 私 有 云 系 统 存在 于 企业 防 
火 墙 之 内 ,只 为 企业 内 部 服务 。 与 公有 云 相 比 , 私 有 云 的 安全 性 更 好 ,但 成 本 也 更 高 , 云 计算 
的 规模 经 济 效益 也 受到 了 限制 ,整个 基础 设施 的 利用 率 要 远 低 于 公有 云 。 混 合 云 则 是 同时 
提供 公有 和 私有 服务 的 云 计算 系统 , 它 是 介 于 公有 云 和 私有 云 之 间 的 一 种 折 中 方案 。 
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图 2-4 云 部 署 模式 示意 图 
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2.5.1 BHA 


公有 云 ,是 指 为 外 部 客户 提供 服务 的 云 , 它 所 有 的 服务 是 供 别 人 使 用 ,而 不 是 自己 使 用 。 

在 此 种 模式 下 ,应 用 程序 资源、 存储 和 其 他 服务 ,都 由 云 服务 供应 商 来 提供 给 用 户 ,这 
些 服务 多 数 是 免费 的 ,也 有 部 分 按 需 求 和 使 用 量 来 付费 ,这 种 模式 只 能 通过 互联 网 来 访问 和 
使 用 。 同 时 ,这 种 模式 在 私人 信息 和 数据 保护 方面 也 比较 有 保证 。 这 种 部 署 模型 通常 都 可 
以 提供 可 扩展 的 云 服务 并 能 高 效 设置 。 

目前 ,典型 的 公有 云 有 微软 的 Windows Azure Platform, 亚马逊 的 AWS, Salesforce. 
com, 以 及 国内 的 阿里 巴巴 、 用 友 伟 库 等 。 对 于 用 户 而 言 ,公有 云 的 最 大 优点 是 ,其 所 应 用 的 
程序 、 服 务 及 相关 数据 都 存放 在 公有 云 的 提供 者 处 ,自己 无 须 做 相应 的 投资 和 建设 。 目 前 最 
大 的 问题 是 ,由 于 数据 不 存储 在 用 户 自己 的 数据 中 心 , 其 安全 性 存在 一 定 风险 。 同 时 ,公有 
云 的 可 用 性 不 受 使 用 者 控制 ,这 方面 也 存在 一 定 的 不 确定 性 。 


2.5.2 MHS 


私有 云 , 是 指 企业 自己 使 用 的 云 , 它 所 有 的 服务 不 是 供 别 人 使 用 ,而 是 供 自己 内 部 人 员 
或 分 支 机 构 使 用 。 

这 种 云 基 础 设施 专门 为 某 一 个 企业 服务 ,不 管 是 自己 管理 还 是 第 三 方 管理 ,自己 负责 还 
是 第 三 方 托 管 ,都 没有 关系 。 

私有 云 的 部 署 比较 适合 于 有 众多 分 支 机 构 的 大 型 企业 或 政府 部 门 。 随 着 这 些 大 型 企业 
数据 中 心 的 集中 化 ,私有 云 将 会 成 为 他 们 部 署 IT 系统 的 主流 模式 。 相 对 于 公有 云 ,私有 云 
部 署 在 企业 自身 内 部 ,因此 其 数据 安全 性 系统 可 用 性 都 可 由 自己 控制 。 但 其 缺点 是 投资 较 
大 ,尤其 是 一 次 性 的 建设 投资 较 大 。 


2.5.3 混合 云 


混合 云 , 是 指 供 自 己 和 客户 共同 使 用 的 云 , 它 所 提供 的 服务 既 可 以 供 别 人 使 用 ,也 可 以 
供 自己 使 用 。 

混合 云 是 两 种 或 两 种 以 上 的 云 计 算 模式 的 混合 体 , 如 公有 云 和 私有 云 混合 。 它 们 相互 
独立 ,但 在 云 的 内 部 又 相互 结合 ,可 以 发 挥 出 所 混合 的 多 种 云 计算 模型 各 自 的 优势 。 相 比较 
而 言 , 混 合 云 的 部 署 方式 对 提供 者 的 要 求 较 高 。 


2.6 云 计 算 的 优势 与 挑战 














1. 云 计算 具有 的 优势 

1) 超大 规模 

“ 云 ? 具 有 相当 的 规模 。Google 云 计 算 已 经 拥有 一 百 多 万 台 服 务 器 ,Amazon、IBM\ 微 
$k Yahoo 等 的 云 均 拥有 几 十 万 台 服 务 器 。 企 业 私有 云 一 般 拥有 数 百 上 千 台 服务 器 。“ 云 ” 
能 赋予 用 户 前 所 未 有 的 计算 能 力 。 
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2) 虚拟 化 


云 计算 支持 用 户 在 任意 位 置 、 使 用 任意 终端 获取 应 用 服务 。 所 请 求 的 资源 来 自 云 ,而 不 
是 固定 的 有 形 的 实体 。 应 用 在 云 中 某 处 运行 ,但 实际 上 用 户 无 须 了 解 也 不 用 担心 应 用 运行 
的 具体 位 置 。 只 需要 一 台 笔 记 本 或 者 一 部 手机 ,就 可 以 通过 网 络 服务 来 实现 我 们 需要 的 一 
切 ,甚至 包括 超级 计算 这 样 的 任务 。 

3) 高 可 靠 性 

云 使 用 了 数据 多 副本 容错 、 计 算 节 点 同 构 可 互 换 等 措施 来 保障 服务 的 高 可 靠 性 ,使 用 云 
计算 比 使 用 本 地 计算 机 可 靠 。 

4) 通用 性 

云 计 算 不 针对 特定 的 应 用 ,在 云 的 支撑 下 可 以 构造 出 千变万化 的 应 用 ,同一 个 云 可 以 同 
时 支撑 不 同 的 应 用 运行 。 

5) 高 可 扩展 性 

云 的 规模 可 以 动态 伸缩 ,满足 应 用 和 用 户 规模 增长 的 需要 。 

6) 按 需 服务 

云 是 一 个 庞大 的 资源 池 ,可 以 按 需 购买 ; 云 可 以 像 自来水 、 电 、 煤 气 那样 计 费 。 

7) 极其 廉价 

由 于 云 的 特殊 容错 措施 可 以 采用 极其 廉价 的 节点 来 构成 云 , 云 的 自动 化 集中 式 管理 使 
大 量 企业 无 须 负 担 日 益 高 昂 的 数据 中 心 管理 成 本 , 云 的 通用 性 使 资源 的 利用 率 较 之 传统 系 
统 大 幅 提 升 ,因此 用 户 可 以 充分 享受 云 的 低 成 本 优势 ,经 常 只 要 花费 几 百 美元 、 几 天 时 间 就 
能 完成 以 前 需要 数 万 美元 、 数 月 时 间 才 能 完成 的 任务 。 

虽然 我 们 看 到 云 计算 在 国内 的 广阔 前 景 , 但 也 不 得 不 面 对 一 个 现实 , 云 计算 需要 应 对 众 
多 的 客观 挑战 ,才能 够 逐渐 发 展 成 为 一 个 主流 的 架构 。 

2. 云 计 算 所 面临 的 挑战 

1) 服务 的 持续 可 用 性 

云 服务 都 是 部 署 及 应 用 在 互联 网 上 的 ,用 户 难免 会 担心 是 否 服务 一 直 都 可 以 使 用 。 就 
像 银行 一 样 ,储户 把 钱 存 入 银行 是 基于 对 银行 倒闭 的 可 能 性 极 小 的 信任 。 对 一 些 特殊 用 户 
(如 银行 .航空 公司 ) 来 说 ,他 们 需要 云 平 台 提供 一 种 7X 24 的 服务 。 而 遗憾 的 是 ,微软 公司 
的 Azure 平 台 在 2014 年 9 月份 运行 期 间 发 生 的 一 次 故障 影响 了 10 种 服务 ,包括 云 服务 、 虚 
拟 机 和 网 站 ,直到 两 个 小 时 之 后 , 才 开始 处 理 宕 机 和 中 断 问题 ; Google 的 某 些 功能 在 2009 
年 5 月 14 日 停止 服务 两 个 小 时 ; 亚马逊 在 2011 年 4 月 故障 4 天 。 这 些 网 络 运营 商 的 停机 
在 一 定 程度 上 制约 了 云 服务 的 发 展 。 

2) 服务 的 安全 性 

云 计 算 平台 的 安全 问题 由 两 方面 构成 : 一 是 数据 本 身 的 保密 性 和 安全 性 。 因 为 云 计算 
平台 ,特别 是 公共 云 计算 平台 的 一 个 重要 特征 就 是 开放 性 ,各 种 应 用 整合 在 一 个 平台 上 ,对 
于 数据 泄露 和 数据 完整 性 的 担心 都 是 云 计算 平台 要 解决 的 问题 。 这 就 需要 从 软件 解决 方 
案 .应 用 规划 角度 进行 合理 而 严谨 的 设计 。 二 是 数据 平台 上 软 硬 件 的 安全 性 。 如 果 由 于 软 
件 错误 或 者 硬件 崩溃 ,导致 应 用 数据 损失 ,都 会 降低 云 计算 平台 的 效能 。 这 就 需要 采用 可 靠 
的 系统 监控 、 灾 难 恢复 机 制 以 确保 软 硬 件 系统 的 安全 运行 。 
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3) 服务 的 迁移 

如 果 一 个 企业 不 满意 现在 所 使 用 的 云 平台 ,那么 它 可 以 将 现 有 数据 迁移 到 另 一 个 云 平 
BEA? 如 果 企业 绑 定 了 一 个 云 平 台 , 当 这 个 平台 提高 服务 价格 时 , 它 又 有 多 少 讨价还价 的 
余地 呢 ? 虽然 不 同 的 云 平 台 可 以 通过 Web 技术 等 方式 相互 调用 对 方 平台 上 的 服务 ,但 在 现 
有 技术 基础 上 还 是 会 面 对 数 据 不 兼容 等 各 种 问题 ,使 服务 的 迁移 非常 困难 。 

4) 服务 的 性 能 

既然 云 计算 通过 互联 网 进行 传输 ,那么 网 络 带宽 就 成 为 云 服 务 质 量 的 决定 性 因素 。 如 
果 有 大 量 数据 需要 传输 的 时 候 , 云 服务 的 质量 就 不 会 那么 理想 。 当 然 , 随 着 网 络 设备 的 飞速 
发 展 ,带宽 问题 将 不 会 成 为 制约 云 计算 发 展 的 因素 。 

云 计算 为 产业 服务 化 提供 了 技术 平台 ,使 生产 流程 的 最 终 交 付 品 是 一 种 基于 网 络 和 信 
息 平台 的 服务 。 在 未 来 几 年 中 ,中 国 云 计算 市 场 将 会 保持 快速 的 增长 。 目 前 ,我 国 云 计 算 市 
场 仍 处 于 发 展 初期 ,只 要 能 把 握 好 云 计算 这 次 巨大 的 浪潮 ,就 有 机 会 将 信息 化 普及 到 各 行 各 
业 并 且 推 动 我 国 科技 创新 的 发 展 。 


2.7 典型 云 应 用 


“ 云 应 用 ”是 “ 云 计算 ”概念 的 子 集 ,是 云 计算 技术 在 应 用 层 的 体现 。 云 应 用 跟 云 计算 最 
大 的 不 同 在 于 , 云 计算 作为 一 种 宏观 技术 发 展 概念 而 存在 ,而 云 应 用 则 是 直接 面 对 客户 解决 
实际 问题 的 产品 。 如 图 2-5 所 示 , 云 应 用 遍及 各 个 方面 ,下 面 将 重点 介绍 云 存储 、 云 服务 以 
及 云 物 联 。 
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2.7.1 云 存 储 


云 存 储 是 在 云 计 算 概 念 上 延伸 和 发 展 出 来 的 一 个 新 的 概念 ,是 一 种 新 兴 的 网 络 存储 技 
术 , 是 指 通过 集群 应 用 、 网 络 技术 或 分 布 式 文件 系统 等 功能 ,将 网 络 中 大 量 各 种 不 同类 型 的 存 
储 设备 通过 应 用 软件 集合 起 来 协同 工作 ,共同 对 外 提供 数据 存储 和 业务 访问 功能 的 一 个 系统 。 

典型 的 云 存 储 包 括 百度 云 (图 2-6 为 百度 云 的 网 页 界面 图 )、 阿 里 云 网 盘 等 ,这 些 应 用 的 
作用 ,可 以 帮助 用 户 存储 资料 ,如 大 容量 文件 就 可 以 通过 云 存 储 留 给 他 人 下 载 ,节省 了 时 间 
和 金钱 ,有 很 好 的 便携 性 。 现 在 ,除了 互联 网 企业 外 ,许多 YT 厂商 也 开始 有 自己 的 云 存储 
服务 ,以 达到 捆绑 客户 的 作用 ,如 联想 的 “ 乐 云 ”华为 的 网 盘 等 。 
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图 2-6 百度 云 


2.7.2 云 服务 


如 图 2-7 所 示 , 目 前 非常 多 的 公司 都 有 自己 的 云 服务 产品 ,如 Google, Microsoft, Amazon 
等 。 典 型 的 云 服务 包括 微软 Hotmail, 6 8K Gmail, R iCloud 等 ,这 项 服务 主要 以 邮箱 为 
账号 ,实现 用 户 登 录 账 号 后 ,内 容 在 线 同步 的 作用 。 当 然 ,邮箱 也 可 以 达到 这 个 效果 ,在 没有 
U 盘 的 情况 下 ,有 人 经 常会 把 文件 发 给 自己 的 邮箱 ,以 方便 回 家 阅览 ,这 也 是 云 服 务 的 最 早 
应 用 ,可 以 实现 在 线 运行 ,随时 随地 接收 文件 。 
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2.7.3 云 物 联 


“ 物 联网 就 是 物 物 相连 的 互联 网 "。 这 里 有 两 层 意思 : 第 一 , 物 联网 的 核心 和 基础 仍然 
是 互联 网 ,是 在 互联 网 基础 上 延伸 和 扩展 的 网 络 ; 第 二 ,其 用 户 端 延伸 和 扩展 到 了 任何 物品 
与 物品 之 间 ,进行 信息 交换 和 通信 。 

物 联 网 的 两 种 业务 模式 如 下 。 

(D MAICM2M Application Integration) 和 内 部 MaaS。 

(2) MaaSCM2M as a Service). MMO 和 Multi Tenants( 多 租户 模型 ) 。 

随 着 物 联 网 业务 量 的 增加 ,对 数据 存储 和 计算 量 的 需求 将 带 来 对 * 云 计算 ”能力 的 要 求 。 

(1) 云 计 算 : 从 计算 中 心 到 数据 中 心 在 物 联 网 
的 初级 阶段 ,PoP(Point of Presence) 即 可 满足 需求 。 

(2) 在 物 联网 高 级 阶段 ,可 能 出 现 MVNO/MMO 
(Mobile Virtual Network Operator/M2M Mobile 
Operator) 营 运 商 (国外 已 存在 多 年 ) ,需要 虚拟 化 云 计 
算 技术 ,SOA(Service Oriented Architecture) 等 技术 的 
结合 实现 互联 网 的 泛 在 服务 : TaaS (everyTHING as a 
Service) , 

图 2-8 是 一 款 叫 作 ZigBee 系列 智能 开关 的 云 物 
联 产品 ,可 应 用 于 家 庭 ,办 公 、 医 院 和 酒店 等 场合 。 





图 2-8 单轨 窗帘 开关 一 一 云 物 联 产品 


2.8 云 计 算 与 大 数据 


大 数据 正在 引发 全 球 范围 内 深刻 的 技术 和 商业 变革 。 如 同 云 计算 的 出 现 ,大 数据 也 不 
是 一 个 突然 而 至 的 新 概念 。 百 度 的 张亚勤 说 :“ 云 计算 和 大 数据 是 一 个 硬币 的 两 面 , 云 计算 
是 大 数据 的 IT 基础 ,而 大 数据 是 云 计算 的 一 个 杀手 级 应 用 ”"。 云 计算 是 大 数据 成 长 的 驱动 
力 , 而 男 一 方面 ,由 于 数据 越 来 越 多 , 越 来 越 复 杂 , 越 来 越 实时 ,这 就 更 加 需要 云 计算 去 处 理 ， 
所 以 二 者 之 间 是 相辅相成 的 。 

三 十 多 年 前 ,存储 1TB 数据 的 成 本 大 约 是 16 亿美 元 ,如 今 存储 到 云 上 只 需 不 到 100 X 
元 ,但 存储 下 来 的 数据 ,如 果 不 以 云 计算 的 模式 进行 挖掘 和 分 析 , 就 只 能 是 伪 死 的 数据 ,没有 
太 大 价值 。 

目前 , 云 计算 已 经 普及 并 成 为 IT 行业 主流 技术 ,其 实质 是 在 计算 量 越 来 越 大 、 数 据 越 
来 越 多 、 越 来 越 动态 . 越 来 越 实时 的 需求 背景 下 被 催生 出 来 的 一 种 基础 架构 和 商业 模式 。 个 
人 用 户 将 文档 .照片 .视频 ,游戏 存档 记录 上 传 至 “ 云 ” 中 永久 保存 ,企业 客户 根据 自身 需求 ， 
可 以 搭建 自己 的 “私有 云 ”, 或 托管 ,或 租用 * 公 有 云 ? 上 的 IT 资源 与 服务 。 可 以 说 , 云 是 一 
棵 挂 满 了 大 数据 的 苹果 树 。 

在 技术 上 ,大 数据 使 从 数据 当中 提取 信息 的 常规 方式 发 生 了 变化 .“ 在 技术 领域 ,以 往 
更 多 是 依靠 模型 的 方法 ,现在 我 们 可 以 借用 规模 庞大 的 数据 ,用 基于 统计 的 方法 ,有 望 使 语 
音 识 别 、 机 器 翻译 这 些 技术 领 域 在 大 数据 时 代 取 得 新 的 进展 张亚勤 说 。 在 搜索 引擎 和 在 线 
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广告 中 发 挥 重要 作用 的 机 器 学 习 , 被 认为 是 大 数据 发 挥 真 正 价值 的 领域 ,在 海量 的 数据 中 统 
计 分 析出 人 的 行为 ,习惯 等 方式 ,计算 机 可 以 更 好 地 学 习 模 拟人 类 智能 。 随 着 包括 语音 、 
觉 \ 手 势 和 多 点 触 控 等 在 内 的 自然 用 户 界面 越 来 越 普 及 ,计算 系统 正在 具备 与 人 类 相仿 的 感 
知 能 力 , 其 看 见 、 听 懂 和 理解 人 类 用 户 的 能 力 不 断 提高 。 这 种 计算 系统 不 断 增强 的 感知 能 
力 , 与 大 数据 以 及 机 器 学 习 领 域 的 进展 相 结 合 , 已 使 得 目前 的 计算 系统 开始 能 够 理解 人 类 用 
户 的 意图 和 语 境 。 这 使 得 计算 机 能 够 真正 帮助 我 们 ,甚至 代表 我 们 去 工作 。 

在 商业 模式 上 ,对 商业 竞争 的 参与 者 来 说 ,大 数据 意味 着 激动 人 心 的 业务 与 服务 创新 机 
会 。 零 售 连锁 企业 、 电 商业 巨头 都 已 在 大 数据 挖掘 与 营销 创新 方面 有 着 很 多 的 成 功 案例 ,他 
们 都 是 商业 嗅觉 极其 敏锐 、 敢 于 投资 未 来 的 公司 ,也 因此 获得 了 丰厚 的 回报 。 

IT 产业 链 分 工 、 主 导 权 也 因为 大 数据 产生 了 巨大 影响 。 以 往 , 移 动 运 营 商 和 互联 网 服 
务 运营 商 等 拥有 着 大 量 用 户 行为 习惯 的 各 种 数据 ,在 IT 产业 链 中 具有 举足轻重 的 地 位 。 
而 在 大 数据 时 代 , 移 动 运 营 商 如 果 不 能 挖掘 出 数据 的 价值 ,可 能 会 彻底 地 被 管道 化 。 运 营 商 
和 更 懂 用 户 需求 的 第 三 方 开发 者 互利 共 赢 的 模式 ,已 取得 一 定 共识 。 

云 计算 与 大 数据 到 底 有 什么 关系 ? 

本 质 上 , 云 计算 与 大 数据 的 关系 是 静 与 动 的 关系 。 云 计算 强调 的 是 计算 ,这 是 动 的 概 
念 ; 而 数据 则 是 计算 的 对 象 ,是 静 的 概念 。 如 果 结 合 实际 的 应 用 ,前 者 强调 的 是 计算 能 力 ， 
或 者 看 重 的 是 存储 能 力 。 但 是 这 样 说 ,并 不 意味 着 两 个 概念 就 如 此 泾 渭 分 明 。 一 方面 ,大 数 
据 需 要 处 理 大 数据 的 能 力 ( 数 据 获取 、 清 洗 、 转 换 、 统 计 等 能 力 ) ,其 实 就 是 强大 的 计算 能 力 ; 
另 一 方面 , 云 计算 的 动 也 是 相对 而 言 ,例如 ,基础 设施 即 服务 中 的 存储 设备 提供 的 主要 是 数 
据 存储 能 力 , 所 以 可 谓 是 动 中 有 更 。 

如 果 数 据 是 财富 ,那么 大 数据 就 是 宝藏 ,而 云 计算 就 是 挖 握 和 利用 宝藏 的 利器 。 

云 计算 能 为 大 数据 带 来 哪些 变化 呢 ? 

首先 , 云 计算 为 大 数据 提供 了 可 以 弹性 扩展 、 相 对 便宜 的 存储 空间 和 计算 资源 ,使 得 中 
小 企业 也 可 以 像 亚 马 逊 公司 一 样 通过 云 计算 来 完成 大 数据 分 析 。 

其 次 , 云 计 算 IT 资源 庞大 ,分 布 较为 广泛 ,是 异 构 系统 较 多 的 企业 及 时 准确 处 理 数 据 
的 有 力 方式 ,甚至 是 唯一 方式 。 

当然 ,大 数据 要 走向 云 计算 还 有 赖 于 数据 通信 带宽 的 提高 和 云 资源 的 建设 ,需要 确保 原 
始 数据 能 迁移 到 云 环境 以 及 资源 池 可 以 随 需 弹性 扩展 。 

数据 分 析 集 逐步 扩大 ,企业 级 数据 仓库 将 成 为 主流 ,未 来 还 将 逐步 纳入 行业 数据 政府 
公开 数据 等 多 来 源 数据 。 

当 人 们 从 大 数据 分 析 中 尝 到 甜头 后 ,数据 分 析 集 就 会 逐步 扩大 。 目 前 大 部 分 企业 所 分 
析 的 数据 量 一 般 以 TB 为 单位 ,按照 目前 数据 的 发 展 速度 ,很 快 将 会 进入 PB 时 代 。 特 别 是 
目前 在 100—500TB 和 500 十 TB 范围 的 分 析 数 据 集 的 数量 呈 3 倍 或 4 倍 的 增长 。 

随 着 数据 分 析 集 的 扩大 ,以 前 部 门 层级 的 数据 集 市 将 不 能 满足 大 数据 分 析 的 需求 ,它们 
将 成 为 企业 及 数据 库 (EDW) 的 一 个 子 集 。 根 据 TDWI 的 调查 ,如 今 大 概 有 2/3 的 用 户 已 经 
在 使 用 企业 级 数据 仓库 ,未 来 这 一 比例 将 会 更 高 。 传 统 分 析 数 据 库 可 以 正常 持续 ,但 是 会 有 
一 些 变化 。 一 方面 ,数据 集 市 和 操作 性 数据 存储 (ODS) 的 数量 会 减少 ; 另 一 方面 ,传统 的 数 
据 库 厂商 会 提升 他 们 产品 的 数据 容量 、 细 目 数据 和 数据 类 型 ,以 满足 大 数据 分 析 的 需要 。 

大 数据 技术 与 云 计算 的 发 展 密切 相关 ,大 数据 技术 是 云 计 算 技术 的 延伸 。 大 数据 技术 
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涵盖 了 从 数据 的 海量 存储 、\ 处 理 到 应 用 多 方面 的 技术 ,包括 海量 分 布 式 文件 系统 .并 行 计算 
框架 `NoSQL 数据 库 、 实 时 流 数 据 处 理 以 及 智能 分 析 技术 如 模式 识别 .自然 语言 理解 、 应 用 
知识 库 等 。 对 电信 运营 商 而 言 , 在 当前 智能 手机 、 智 能 设备 快速 增长 .移动 互联 网 流量 迅猛 
增加 的 情况 下 ,大 数据 技术 可 以 为 运营 商 带 来 新 的 机 会 。 大 数据 在 运营 商 中 的 应 用 可 以 涵 
盖 多 个 方面 ,包括 企业 管理 分 析 如 战略 分 析 、 竞 争 分 析 ,运营 分 析 如 用 户 分 析 、 业 务 分 析 、 流 
量 经 营 分 析 , 网 络 管 理 维护 优化 如 网 络 信 令 监测 、 网 络 运行 质量 分 析 , 营 销 分 析 如 精准 营销 、 
个 性 化 推荐 等 。 

大 数据 逐步 * 云 "化 , 纵 观 历史 ,过 去 的 数据 中 心 无 论 应 用 层次 还 是 规模 大 小 ,都 仅仅 是 
停留 在 过 去 有 限 的 基础 架构 之 上 ,采用 的 是 传统 精简 指令 集 计 算 机 和 传统 大 型 计算 机 ,各 个 
基础 架构 之 间 都 相互 孤立 ,没有 形成 一 个 统一 的 有 机 整体 。 在 过 去 的 数据 中 心里 面 , 各 种 资 
源 都 没有 得 到 有 效 充分 的 利用 。 而 且 传统 数据 中 心 资源 配置 和 部 署 大 多 采用 人 工 方式 , 没 
有 相应 的 平台 支持 ,使 大 量 人 力 资源 耗费 在 繁重 的 重复 性 工作 上 ,缺少 自助 服务 和 自动 部 署 
能 力 , 既 耗费 时 间 和 成 本 ,又 严重 影响 工作 效率 。 而 当今 越 来 越 流 行 的 云 计算 、 虚 拟 化 和 云 
存储 等 新 IT 模式 的 出 现 ,再 一 次 说 明了 过 去 那 种 孤立 ,缺乏 有 机 整合 的 数据 中 心 资源 并 没 
有 得 到 有 效 利用 ,并 不 能 满足 当前 多 样 .高 效 和 海量 的 业务 应 用 需求 。 

在 云 计算 时 代 背 景 下 ,数据 中 心 需要 向 集中 大 规模 共享 平台 推进 ,并 且 ,数据 中 心 要 能 
实现 实时 动态 扩容 ,实现 自助 和 自动 部 署 服务 。 从 中 长 期 来 看 ,数据 中 心 需要 逐渐 过 渡 到 
“ 云 基础 架构 为 主流 企业 所 采用 , 专 有 架构 为 关键 应 用 所 采用 ?阶段 ,并 最 终 实现 “强壮 的 云 
架构 为 所 有 负载 所 采用 ”, 无 论 是 大 型 计算 机 还 是 x86 都 融入 云端 ,实现 软 硬 件 资源 的 高 度 
整合 。 


数据 中 心 逐 步 过 渡 到 “ 云 ”, 这 既 包 括 私 有 云 又 包括 公有 云 。 
习题 


.什么 是 云 计算 ? 

. 云 计算 的 特点 是 什么 ? 

. 云 计算 存在 的 问题 有 哪些 ? 
. 云 计算 有 哪些 应 用 ? 


SF wn 一 


Me WW 化 





本 章 介 绍 的 是 虚拟 化 技术 ,将 对 虚拟 化 的 简介 、 虚 拟 化 技术 的 分 类 、 系 统 虚 拟 化 虚拟 化 
与 云 计算 ,相关 开 源 技术 以 及 虚拟 化 未 来 的 发 展 趋势 进行 讲解 ,包括 虚拟 化 的 发 展 历史 以 及 
虚拟 化 带 来 的 好 处 。 通 过 对 本 章 的 学 习 , 读 者 应 该 能 对 虚拟 化 技术 有 系统 的 了 解 以 及 对 相 
关 技 术 有 一 定 的 认识 。 


3.1 虚拟 化 简介 


随 着 近年 多 核 系统 、 集 群 . 网 格 甚至 云 计算 的 广泛 部 署 ,虚拟 化 技术 在 应 用 上 的 优势 日 
益 体 现 ,通过 使 用 虚拟 化 ,不 仅 可 以 降低 IT 成 本 ,而 且 可 以 增强 系统 的 安全 性 和 可 靠 性 , 虚 
拟 化 的 概念 逐渐 深入 到 人 们 日 常 的 工作 与 生活 当中 。 


3.1.1 什么 是 虚拟 化 


虚拟 化 是 指 计算 机 软件 在 虚拟 的 基础 上 而 不 是 在 真实 的 、 独 立 的 物理 硬件 基础 上 运行 。 
例如 ,CPU 的 虚拟 化 技术 可 以 实现 单 CPU 模拟 多 CPU 并 行 , 允 许 一 个 平台 同时 运行 多 个 
操作 系统 ,并 且 应 用 程序 可 以 在 相互 独立 的 空间 内 运行 而 互 不 影响 ,从 而 显著 提高 计算 机 的 
工作 效率 。 这 种 以 优化 资源 (把 有 限 的 、 固 定 的 资源 根据 不 同 的 需求 进行 重新 规划 以 达到 最 
大 利用 率 ) 、 简 化 软件 的 重新 配置 过 程 为 目的 的 解决 方案 ,就 是 虚拟 化 技术 。 

图 3-1 展示 了 虚拟 化 架构 与 传统 架构 的 对 比 。 简 单 来 讲 , 虚 拟 化 架构 就 是 在 一 个 物理 
硬件 机 器 上 同时 运行 多 个 不 同 应 用 的 独立 的 虚拟 系统 。 这 些 同 时 运行 的 虚拟 系统 由 
Hyperviser 来 控制 ,虚拟 机 被 称 为 guest。Hypervisor 不 仅 可 以 提供 虚拟 系统 资源 ,进行 主 
机 /虚拟 机 之 间 的 调度 ,而 且 可 以 提供 虚拟 机 间 的 通信 。 虚 拟 化 服务 器 的 应 用 如 下 。 
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图 3-1 虚拟 化 架构 与 传统 架构 的 对 比 
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1. 研发 与 测试 

提 到 虚拟 化 服务 器 的 应 用 ,人 们 首先 想到 的 就 是 研发 测试 环境 ,因为 在 一 般 情况 下 , 研 
发 和 测试 人 员 需 要 使 用 不 同 的 操作 系统 环境 ,而 如 果 每 一 种 平台 都 需要 使 用 物理 服务 器 ,这 
将 会 对 准备 测试 环境 的 过 程 带 来 相当 大 的 困难 ,一 个 小 小 的 测试 改变 都 需要 重 装 若干 这 样 
的 测试 用 服务 器 。 如 果 一 个 测试 过 程 需要 成 百 上 千 台 服务 器 进行 压力 测试 时 ,准备 纯 物 理 
服务 器 的 测试 环境 几乎 不 可 能 ,虚拟 化 技术 无 疑 是 最 佳 的 选择 。 

通过 在 一 台 物 理 服 务 器 上 实现 多 个 操作 系统 ,或 者 实现 成 百 上 千 个 虚拟 的 服务 器 ,可 以 
极 大 地 降低 研发 和 测试 成 本 。 

2. 服务 器 合并 

很 多 企业 用 户 都 不 得 不 面 对 这 样 的 篮 众 : 每 实施 一 项 应 用 就 要 买 一 台 服务 器 , 随 着 应 用 
的 增加 ,一 般 要 购买 很 多 不 易 变 更 的 资源 ,在 这 个 过 程 中 ,完成 不 同 任务 的 服务 器 越 来 越 多 , 管 
理 变 得 越 来 越 复 杂 , 同 时 服务 器 利用 率 却 很 低 , 仅 为 15%~~20% ,将 会 造成 资源 的 极 大 浪费 。 

因此 ,将 各 种 不 同 的 服务 器 整合 在 一 起 的 方案 受到 了 用 户 的 欢迎 。 但 是 整合 在 一 起 的 
服务 器 如 何 分 配 资源 ,并 保证 每 一 个 应 用 的 正常 运行 呢 ? 服务 器 从 小 变 大 是 一 个 问题 ,而 将 
大 块 计算 资源 分 成 小 块 也 是 一 个 问题 。 虚 拟 服务 器 技术 的 出 现 轻 松 地 解决 了 服务 器 合并 的 
问题 ,从 而 受到 更 多 企业 用 户 的 青睐 。 

3. 高 级 虚拟 主机 

虚拟 主机 技术 的 出 现 , 大 大 降低 了 在 互联 网 上 建立 站 点 的 资金 门槛 。 可 以 说 , 正 是 这 样 
的 虚拟 技术 构筑 起 了 互联 网 的 大 厦 。 但 随 着 互联 网 的 普及 ,客户 常常 抱怨 虚拟 主机 做 了 过 
多 的 限制 ,而 且 稳定 性 不 好 ,资源 很 难保 证 。 现 在 的 虚拟 主机 用 户 对 虚拟 主机 服务 提出 了 更 
高 的 要 求 , 用 户 需要 更 安全 、 稳 定 的 环境 ,甚至 是 对 部 分 资源 的 控制 权 。 


3.1.2 虚拟 化 的 发 展 历史 


1. 虚拟 化 技术 的 萌芽 

20 世纪 60 年 代 , 美 国 的 计算 机 学 术 界 就 有 了 虚拟 技术 思想 的 萌芽 。1959 年 , 克 里 斯 托 
Jli (Christopher Strachey) 发 表 了 一 篇 学 术 报 告 , 名 为 “大 型 高 速 计算 机 中 的 时 间 共 享 ” 
(Time Sharing in Large Fast Computers) ,他 在 文中 提出 了 虚拟 化 的 基本 概念 ,这 篇 文章 
也 被 认为 是 对 虚拟 化 技术 的 最 早 论述 。 

2. 虚拟 化 技术 的 雏形 

首次 出 现 虚拟 化 技术 是 在 20 世纪 60 年 代 , 当 时 的 应 用 是 使 用 虚拟 化 对 稀有 而 昂贵 的 
资源 一 一 大 型 计算 机 硬件 的 分 区 。 例如 ,IBM 当时 就 已 经 在 360/67、370 等 硬件 体系 上 实 
现 了 虚拟 化 。IBM 的 虚拟 化 通过 VMM 把 一 个 硬件 虚拟 成 多 个 硬件 (Virtual Machine, 
VM) ,各 VM 之 间 可 以 认为 是 完全 隔离 的 ,在 VM 上 可 以 运行 “任何 ”的 操作 系统 ,而 不 会 对 
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其 他 的 VM 产生 影响 。 

3. 虚拟 化 标准 的 提出 

1974 4F, Popek 和 Goldberg 在 Formal Requirements for Virtualizable Third 
Generation Architectures 一 文中 提出 了 一 组 称 为 虚拟 化 准则 的 充分 条 件 ,满足 条 件 的 控制 


4. 虚拟 化 的 进一步 发 展 

到 了 20 世纪 90 年 代 , 一 些 研究 人 员 开 始 探索 如 何 利用 虚拟 化 技术 解决 同 廉价 硬 件 激 
增 相 关 的 一 些 问题 ,如 利用 率 不 足 、 管 理 成 本 不 断 攀 升 和 易 受 攻击 等 问题 。 

直到 近 几 年 , 软 硬 件 方面 的 进步 才 使 得 虚拟 化 技术 逐渐 出 现在 基于 行业 标准 的 中 低 端 
服务 器 上 。 毫 无 疑问 ,虚拟 化 正在 重组 IT 工业 ,同时 它 也 正在 支撑 起 云 计算 。 云 计算 的 平 
台 包 括 三 类 服务 : 基础 实施 即 服务 (JaaS) ,平台 即 服务 (PaaS)、 软 件 即 服务 (SaaS) ,而 这 三 
类 服务 的 基础 都 是 虚拟 化 平台 。 如 果 把 云 计算 单纯 理解 为 虚拟 化 ,其 实 也 并 不 为 过 ,因为 没 
有 虚拟 化 的 云 计算 ,是 不 可 能 实现 按 需 计算 的 目标 的 。 


3.1.3 虚拟 化 带 来 的 好 处 


和 传统 IT 资源 分 配 的 应 用 方式 相 比 ,使 用 虚拟 化 的 优势 如 下 。 

1. 提高 资源 利用 率 

通过 整合 服务 器 可 以 将 共用 的 基础 架构 资源 率 聚 合 到 资源 池 中 ,打破 原 有 的 一 台 服 务 
器 一 个 应 用 程序 的 模式 。 为 了 达到 资源 的 最 大 利用 ,虚拟 化 把 一 个 硬件 虚拟 成 多 个 硬件 ,这 
里 的 一 个 硬件 指 的 不 是 一 个 个 体 ,而 是 由 一 个 个 个 体 组 成 的 一 组 资源 。 例 如 ,将 多 个 硬盘 组 
成 阵列 ,将 多 个 硬盘 视 为 计算 机 的 硬盘 部 分 。 用 户 将 许多 资源 组 成 一 个 庞大 的 ,计算 能 力 十 
分 巨大 的 “巨型 计算 机 ”, 再 将 这 个 巨型 计算 机 虚拟 成 多 个 独立 的 系统 ,这 些 系统 相互 独立 ， 
但 共享 资源 ,这 就 是 虚拟 化 的 精髓 。 

传统 的 IT 企业 为 每 一 项 业务 应 用 部 署 一 台 单独 的 服务 器 ,服务 器 的 规模 通常 是 针对 
峰值 配置 ,服务 器 规模 (处 理 能 力 ) 远 远大 于 服务 器 的 平均 负载 ,服务 器 在 大 部 分 时 间 处 于 空 
闲 状 态 ,资源 得 不 到 最 大 利用 。 而 使 用 虚拟 化 技术 可 以 动态 调用 空闲 资源 , 减 小 服务 器 规 
模 , 从 而 提高 资源 利用 率 。 

2. 降低 成 本 ,节能 减 排 

现在 的 能 源 使 用 越 来 越 紧 张 , 机 房 空间 不 可 能 无 限 扩展 。 通 过 使 用 虚拟 化 ,可 以 使 所 需 
的 服务 器 及 相关 IT 硬件 的 数量 变 少 ,这 样 不 仅 可 以 减少 占 地 空间 ,同时 也 能 减少 电力 和 散 
热 需 求 。 通 过 使 用 管理 工具 ,可 帮助 提高 服务 器 /管理 员 比率 ,因此 所 需 人 员 数 量 也 将 随 之 
减少 。 总 的 来 说 ,使 用 虚拟 化 可 以 提高 资源 利用 率 ,减少 服务 器 的 采购 数量 ,降低 硬件 成 本 
以 及 增加 投资 的 有 效 性 。 

3. 统一 管理 

传统 的 IT 服务 器 资源 是 一 个 个 相对 独立 的 硬件 个 体 , 对 每 一 个 资源 都 要 进行 相应 的 
维护 和 升级 ,这 样 会 耗费 企业 大 量 的 人 力 和 物力 。 虚 拟 化 系统 将 资源 整合 ,在 管理 上 十 分 方 
便 ,在 升级 时 只 需 添 加 动作 , 避 开 传统 的 进行 容量 规划 、 定 制服 务 器 、 安 装 硬件 等 工作 ,从 而 
提高 工作 效率 。 
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4. 提高 安全 性 

用 户 可 以 在 一 台 计算 机 上 模拟 出 多 个 不 同 的 操作 系统 ,在 虚拟 系统 下 的 各 个 子 系统 相 
互 独立 (系统 隔离 技术 ) ,即使 一 个 子 系统 遭受 攻击 而 崩溃 ,也 不 会 对 其 他 系统 造成 影响 。 而 
且 , 在 使 用 备份 机 制 后 , 子 系统 在 遭受 攻击 后 可 以 被 快速 地 恢复 。 同 时 可 以 避免 不 同系 统 造 
成 的 不 兼容 性 。 


3.2 虚拟 化 的 分 类 


实际 上 ,我 们 通常 所 说 的 虚拟 化 技术 是 指 服务 器 虚拟 化 技术 。 而 除 此 之 外 ,还 有 网 络 虚 
拟 化 ,存储 虚拟 化 以 及 应 用 虚拟 化 。 


3.2.1 服务 器 虚拟 化 


服务 器 虚拟 化 通过 区 分 资源 的 优先 次 序 , 并 随时 随地 将 服务 器 资源 分 配给 最 需要 它们 
的 工作 负载 来 简化 管理 和 提高 效率 ,从 而 减少 为 单个 工作 负载 峰值 而 储备 的 资源 。 

通过 服务 器 虚拟 化 技术 ,用 户 可 以 动态 地 启用 虚拟 服务 器 (又 叫 虚拟 机 ) ,每 个 服务 器 实 
际 上 可 以 让 操作 系统 (以 及 在 上 面 运行 的 任何 应 用 程序 ) 误 以 为 虚拟 机 就 是 实际 硬件 。 运 行 
多 个 虚拟 机 还 可 以 充分 发 挥 物 理 服 务 器 的 计算 潜能 ,迅速 应 对 数据 中 心 不 断 变化 的 需求 。 

图 3-2 是 一 种 企业 虚拟 化 服务 器 的 整体 解决 方案 。 目 前 常用 的 服务 器 主要 分 为 UNIX 
服务 器 和 x86 服务 器 ,对 UNIX 服务 器 而 言 ,IBM、HP、Sun 公司 各 有 自己 的 技术 标准 ,没有 
统一 的 虚拟 化 技术 ,因此 ,目前 UNIX 的 虚拟 化 仍然 受 具 体 产品 平台 的 制约 ,不 过 UNIX 服 
务 器 虚拟 化 通常 会 用 到 硬件 分 区 技术 ; 而 x86 服务 器 的 虚拟 化 标准 相对 开放 ,下 面 介绍 x86 
服务 器 的 虚拟 化 技术 。 


vCenter VI Web 终端 服务 D 
Server Cliuth 浏览 器 


服务 器 组 1 服务 器 组 2 服务 器 组 3 
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图 3-2 企业 虚拟 化 服务 器 解决 方案 
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1. 完全 虚拟 化 


使 用 Hypervisor 在 VM 和 底层 硬件 之 间 建 立 一 个 抽象 层 ,Hypervisor 捕获 CPU 指令 ， 
为 指令 访问 硬件 控制 器 和 外 设 充当 中 介 。 这 种 虚拟 化 技术 几乎 能 让 任何 一 款 操作 系统 不 加 
改动 就 可 以 安装 在 VM 上 ,而 它们 不 知道 自己 运行 在 虚拟 化 环境 下 。 完 全 虚拟 化 的 主要 缺 
点 是 Hypervisor 会 带 来 处 理 开 销 。 

2. 准 虚拟 化 

完全 虚拟 化 是 处 理 器 密集 型 技术 ,因为 它 要 求 Hypervisor 管理 各 个 虚拟 服务 器 ,并 让 
它们 彼此 独立 。 减 轻 这 种 负担 的 一 种 方法 就 是 ,改动 客户 操作 系统 ,让 它 以 为 自己 运行 在 虚 
拟 环境 下 ,能够 与 Hypervisor 协同 工作 ,这 种 方法 就 叫 准 虚拟 化 。 准 虚拟 化 技术 的 优点 是 
性 能 高 。 经 过 准 虚拟 化 处 理 的 服务 器 可 与 Hypervisor 协同 工作 ,其 响应 能 力 几 乎 不 亚 于 未 
经 过 虚拟 化 处 理 的 服务 器 。 

3. 操作 系统 层 虚拟 化 

实现 虚拟 化 还 有 一 个 方法 , 那 就 是 在 操作 系统 层面 增添 虚拟 服务 器 功能 。 就 操作 系统 
层 的 虚拟 化 而 言 , 没 有 独立 的 Hypervisor 层 。 相 反 ,主机 操作 系统 本 身 就 负责 在 多 个 虚拟 
服务 器 之 间 分 配 硬件 资源 ,并 且 让 这 些 服务 器 彼此 独立 。 一 个 明显 的 区 别 是 ,如 果 使 用 操作 
系统 层 虚 拟 化 ,所 有 虚拟 服务 器 必须 运行 同一 操作 系统 。 


3.2.2 网 络 虚拟 化 


图 3-3 是 网 络 虚 拟 化 架构 ,简单 来 说 ,网 络 虚拟 化 将 不 同 网 络 的 硬件 和 软件 资源 结合 成 
一 个 虚拟 的 整体 。 网 络 虚拟 化 通常 包括 虚拟 局 域 网 和 虚拟 专用 网 。 虚 拟 局 域 网 是 其 典型 的 
代表 , 它 可 以 将 一 个 物理 局 域 网 划分 成 多 个 虚拟 局 域 网 ,或 者 将 多 个 物理 局 域 网 中 的 节点 划 
分 到 一 个 虚拟 局 域 网 中 ,这 样 提 供 一 个 灵活 便捷 的 网 络 管理 环境 ,使 得 大 型 网 络 更 加 易于 管 
理 , 并 且 通 过 集中 配置 不 同位 置 的 物理 设备 来 实现 网 络 的 最 优化 。 虚 拟 专用 网 络 (VPN) 是 
在 大 型 网 络 (通常 是 Internet) 中 的 不 同 计算 机 (节点 ) 通 过 加 密 连接 而 组 成 的 虚拟 网 络 ,具有 
类 似 局 域 网 的 功能 ,虚拟 专用 网 帮助 管理 员 维 护 IT 环境 ,防止 来 自 内 网 或 者 外 网 中 的 威胁 ,使 
用 户 能 够 快速 .安全 地 访问 应 用 程序 和 数据 。 目 前 ,虚拟 专用 网 应 用 在 大 量 的 办 公 环 境 中 。 





网 络 虚 拟 化 





主 用 设备 主 用 链 路 ”备用 设备 备用 链 路 
图 3-3 网 络 虚拟 化 架构 
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网 络 虚 拟 化 应 用 于 企业 核心 和 边缘 路 由 。 利 用 交换 机 中 的 虚拟 路 由 特性 ,用 户 可 以 将 
一 个 网 络 划分 为 使 用 不 同 规则 来 控制 的 多 个 子 网 ,而 不 必 再 为 此 购买 和 安装 新 的 机 架 或 设 
备 。 与 传统 技术 相 比 , 它 具 有 更 少 的 运营 费用 和 更 低 的 复杂 性 。 


3.2.3 存储 虚拟 化 

如 图 3-4 所 示 ,存储 虚拟 化 就 是 把 各 种 不 同 的 存储 设备 有 机 地 结合 起 来 进行 使 用 ,从 而 
得 到 一 个 容量 很 大 的 “存储 池 ”, 可 以 给 各 种 服务 器 进行 灵活 的 使 用 ,并 且 数据 可 以 在 各 存储 
设备 间 灵 活 转移 。 
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图 3-4 存储 虚拟 化 解决 方案 


存储 虚拟 化 的 基本 概念 是 将 实际 的 物理 存储 实体 与 存储 的 迎 辑 表示 分 离开 来 ,应 用 服 
务 器 只 与 分 配给 它们 的 多 辑 卷 (或 称 虚 卷 ) 打 交道 ,而 不 用 关心 其 数据 是 在 哪个 物理 存储 实 
体 上 。 逻 辑 卷 与 物理 实体 之 间 的 映射 关系 ,是 由 安装 在 应 用 服务 器 上 的 卷 管理 软件 ( 称 为 主 
机 级 的 虚拟 化 ) ,或 存储 子 系统 的 控制 器 ( 称 为 存储 子 系统 级 的 虚拟 化 ) ,或 加 入 存储 网 络 
SAN 的 专用 装置 ( 称 为 网 络 级 的 虚拟 化 ) 来 管理 的 。 

存储 虚拟 化 技术 主要 分 为 硬件 和 软件 两 种 方式 来 实现 。 目 前 大 多 数 存 储 厂商 都 提供 了 
这 种 技术 。 微 软 的 分 布 式 文件 系统 (DFS) 从 某 种 意义 上 来 说 也 是 存储 虚拟 化 的 一 种 实现 方 
式 。Redundant Array of Independent Disk(RAID) 技 术 是 虚拟 化 存储 技术 的 雏形 ,目前 使 
用 的 存储 装置 还 有 Network Attached Storage(NAS) 和 Storage Area Network( SAND, X 
流 的 虚拟 存储 技术 厂商 和 产品 有 EMC 的 Invista, IBM 的 SVC, HDS 的 UPS 等 。 


3.2.4 应 用 虚拟 化 
应 用 虚拟 化 通常 包括 两 层 含义 ,一 是 应 用 软件 的 虚拟 化 ; 二 是 桌面 的 虚拟 化 。 所 谓 的 
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应 用 软件 虚拟 化 ,就 是 将 应 用 软件 从 操作 系统 中 分 离 出 来 ,通过 压缩 后 的 可 执行 文件 夹 来 运 
行 , 而 不 需要 任何 设备 驱动 程序 或 者 与 用 户 的 文件 系统 相连 。 借 助 于 这 种 技术 ,用 户 可 以 减 
小 应 用 软件 的 安全 隐患 和 维护 成 本 ,以 及 进行 合理 的 数据 备份 与 恢复 。 

桌面 虚拟 化 技术 是 把 应 用 程序 的 人 机 交互 逻辑 (应 用 程序 界面 .键盘 及 鼠标 的 操作 、 音 
频 输入 输出 、 读 卡 器 ,打印 输出 等 ) 与 计算 逻辑 隔离 开 来 ,客户 端 无 须 安装 软件 ,通过 网 络 连 
接 到 应 用 服务 器 上 ,计算 逻辑 从 本 地 迁移 到 后 台 的 服务 器 完成 ,实现 应 用 的 快速 交付 和 统一 
管理 。 

采用 桌面 虚拟 化 技术 之 后 ,将 不 需要 在 每 个 用 户 的 桌面 上 部 署 和 管理 多 个 软件 客户 端 
系统 ,所 有 应 用 客户 端 系统 都 将 一 次 性 地 部 署 在 数据 中 心 的 一 台 专 用 服务 器 上 ,这 台 服 务 器 
就 放 在 应 用 服务 器 的 前 面 。 客 户 端 也 将 不 需要 通过 网 络 向 每 个 用 户 发 送 实 际 的 数据 ,只 有 
虚拟 的 客户 端 界 面 (屏幕 图 像 更 新 、 按 键 、 鼠 标 移动 等 ) 被 实际 传送 并 显示 在 用 户 的 计算 机 
上 。 这 个 过 程 对 最 终 用 户 是 一 目 了 然 的 ,最 终 用 户 的 感觉 好 像 是 实际 的 客户 端 软 件 正在 自 
己 的 桌面 上 运行 一 样 。 

例如 , 思 杰 的 XenDesktop、WyseThinOS、 微 软 的 远程 桌面 服务 、 微 软 企业 桌面 虚拟 化 
(MED V), VMware View Manager 等 软件 (如 图 3-5 所 示 的 是 View4 桌面 虚拟 化 应 用 ) 都 
已 实现 桌面 虚拟 化 。 
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图 3-5 View4 桌面 虚拟 化 应 用 


3.2.5 技术 比较 


表 3-1 2g A 种 虚拟 技术 的 比较 ,在 这 4 种 虚拟 化 技术 中 ,服务 器 虚拟 化 技术 、 应 用 虚拟 
化 中 的 桌面 虚拟 化 技术 相对 成 熟 ,也 是 使 用 较 多 的 技术 ,而 其 他 虚拟 化 技术 , 则 还 需要 在 实 
践 中 进一步 检验 和 完善 。 
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表 3-1 4 种 虚拟 化 技术 的 比较 
































比较 项 目 服务 器 虚拟 化 存储 虚拟 化 网 络 虚拟 化 应 用 虚拟 化 

产生 年 代 20 世纪 60 年 代 2003 年 20 世纪 末期 21 世纪 

成 熟 程度 高 中 低 低 
VMware 
Microsoft EM Cisco bus 

主流 厂商 HDS Node VMware 
Nen IBM Microsoft 

增强 管理 性 高 中 中 

可 靠 性 高 中 中 中 

可 用 性 高 高 中 高 

兼容 性 高 中 低 中 

可 扩展 性 高 高 中 中 

部 署 难度 中 高 中 高 














3.3 系统 虚拟 化 


系统 虚拟 化 的 核心 思想 是 使 用 虚拟 化 软件 在 一 台 物 理 机 上 ,虚拟 出 一 台 或 多 台 虚 拟 机 。 
系统 虚拟 化 步骤 如 下 。 

第 一 步 , 利 用 虚拟 化 评估 工具 进行 容量 规划 ,实现 同 平台 应 用 的 资源 整合 。 

首先 采用 容量 规划 工具 决定 每 个 系统 的 配置 ,利用 虚拟 化 评估 工具 决定 整合 方案 ,然后 
根据 总 容量 需求 采用 虚拟 化 进行 整合 。 从 整合 同 平 台 的 应 用 开始 ,优先 考虑 架构 相似 的 、 低 
利用 率 的 、 分 布 式 的 应 用 ,还 要 考虑 访问 高 峰 时 段 错 开 的 、 多 层 架 构 的 应 用 以 减少 网 络 流量 。 
基于 类 似 System z,Power Systems System x & Blade 三 种 服务 器 平台 的 虚拟 化 方案 可 以 
实现 应 用 的 整合 。 

第 二 步 ,在 服务 器 虚拟 化 的 基础 上 ,虚拟 化 1/0 和 存储 。 

存储 虚拟 化 有 助 于 实现 更 高 的 灵活 性 。 存 储 虚 拟 化 将 多 套 磁 盘 阵 列 整合 为 统一 的 存储 
资源 池 , 并 通过 单一 节点 对 存储 资源 池 进 行 管理 ,实现 异 构 存 储 系统 之 间 资 源 共享 及 通用 的 
复制 服务 ,在 不 影响 主机 应 用 的 情况 下 调整 存储 环境 。 实现 I/O 虚拟 化 , 即 通过 将 网 卡 、 交 
换 机 和 网 络 节点 虚拟 化 ,实现 TP. 网 络 及 SAN 网 络 容量 的 优化 ,降低 网 络 设备 复杂 度 ,提高 
服务 器 整合 效率 。 

第 三 步 ,实现 虚拟 资源 池 的 统一 管理 。 

虚拟 化 平台 搭建 完成 后 ,需要 实施 有 效 管理 以 确保 整个 IT 架构 的 正常 运转 。IBM 公 
司 可 提供 基于 行业 的 最 佳 实践 ,从 战略 规划 、 设 计 , 到 实施 和 维护 的 IT 服务 , 帮 用 户 实现 异 
构 平 台 管 理 的 整合 与 统一 ,快速 部 署 和 优化 资源 使 用 ,减少 系统 管理 复杂 性 。 

第 四 步 ,从 虚拟 化 迈 向 云 计算 ,通过 云 计算 实现 跨 系 统 的 资源 动态 调整 。 

云 计 算是 一 种 计算 模式 ,在 这 种 模式 中 ,应 用 、 数 据 和 IT 资源 以 服务 的 方式 通过 网 络 
提供 给 用 户 使 用 。 大 量 的 计算 资源 组 成 IT 资源 池 , 用 于 动态 创建 高 度 虚拟 化 的 资源 供给 
用 户 使 用 。 云 计算 是 系统 虚拟 化 的 最 高 境界 o 
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3.4 虚拟 化 与 云 计算 


云 计算 是 业务 模式 ,是 产业 形态 , 它 不 是 一 种 具体 的 技术 。 例 如 IaaS、PaaS 和 SaaS 都 
是 云 计算 的 表现 形式 。 而 虚拟 化 技术 是 一 种 具体 的 技术 ,虚拟 化 和 分 布 式 系统 都 是 用 来 实 
现 云 计算 的 关键 技术 之 一 。 

换 句 话说, 云 计算 是 一 种 概念 ,其 “漂浮 "在 空中 , 故 如何 使 云 计算 真正 落地 ,成 为 真正 提 
供 服务 的 云 系 统 是 云 计算 实现 的 目标 。 业 界 已 经 形成 广泛 的 共识 : 云 计算 将 是 下 一 代 计 算 
模式 的 演变 方向 ,而 虚拟 化 则 是 实现 这 种 转变 最 为 重要 的 基石 。 虚 拟 化 技术 与 云 计 算 几 乎 
是 相辅相成 的 ,在 云 计算 涉及 的 地 方 ,都 有 虚拟 化 的 存在 ,可 以 说 ,虚拟 化 的 技术 是 云 计算 实 
现 的 关键 ,没有 虚拟 化 技术 , 谈 不 上 云 计 算 的 实现 。 所 以 虚拟 化 与 云 计算 有 着 紧密 的 关系 ， 
有 了 虚拟 化 的 发 展 ,使 云 计算 成 为 可 能 ,而 随 着 云 计算 的 发 展 ,带动 虚拟 化 技术 进一步 的 成 

图 3-6 是 一 个 典型 的 云 计 算 平台 。 在 此 平台 中 ,由 数 台 虚拟 机 所 构成 的 虚拟 化 硬件 平 
台 托 起 了 全 部 软件 层 所 提供 的 服务 。 在 虚拟 化 与 云 计算 共同 构成 的 这 样 一 个 整体 的 架构 
中 ,虚拟 化 有 效 地 分 离 了 硬件 与 软件 ,而 云 计 算 则 让 人 们 将 精力 更 加 集中 在 软件 所 提供 的 服 
务 上 。 云 计算 必定 是 虚拟 化 的 ,虚拟 化 给 云 计算 提供 了 坚定 的 基础 。 但 是 虚拟 化 的 用 处 并 
不 仅 限于 云 计算 ,这 只 是 它 强 大 功能 中 的 一 部 分 。 
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3-6 云 计算 平台 


虚拟 化 是 一 个 接口 封装 和 标准 化 的 过 程 ,封装 的 过 程 根据 不 同 的 硬件 有 所 不 同 ,通过 封 
装 和 标准 化 ,为 在 虚拟 容器 里 运行 的 程序 提供 适合 的 运行 环境 。 这 样 ,通过 虚拟 化 技术 ,可 
以 屏 项 不 同 硬件 平台 的 差异 性 ,屏蔽 不 同 硬件 的 差异 所 带 来 的 软件 兼容 问题 ,通过 虚拟 化 技 
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术 , 可 以 将 硬件 的 资源 通过 虚拟 化 软件 重新 整合 后 分 配给 软件 使 用 。 虚 拟 化 技术 实现 了 硬 
件 无 差别 的 封装 ,这 种 方式 适合 于 部 署 在 云 计 算 的 大 规模 应 用 中 。 


3.5 开源 技术 


3.5.1 Xen 


Xen 是 一 个 开放 源 代码 虚拟 机 监视 器 ,由 剑桥 大 学 开发 。 它 可 以 在 单个 计算 机 上 运行 
多 达 100 个 满 特征 的 操作 系统 。 操 作 系 统 必须 进行 显 式 地 修改 (“移植 ”) 以 在 Xen 上 运行 。 
从 图 3-7 中 可 以 看 出 ,Xen 虚拟 机 可 以 在 不 停止 的 情况 下 在 多 个 物理 主机 之 间 进 行 实 
时 迁移 。 在 操作 过 程 中 ,虚拟 机 在 没有 停止 工作 的 情况 下 ,内存 被 反复 地 复制 到 目标 机 器 ， 
在 最 终 目的 主机 开始 执行 之 前 ,会 有 一 次 60 一 300ms 的 暂停 以 执行 最 终 的 同步 化 ,给 用 户 
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图 3-7 Xen 虚拟 机 架构 


Xen 是 一 个 基于 x86 架构 、 发 展 最 快 、 性 能 最 稳定 、 占 用 资源 最 少 的 开源 虚拟 化 技术 。 
Xen 可 以 在 一 套 物 理 硬件 上 安全 地 执行 多 个 虚拟 机 ,与 Linux 是 一 个 完美 的 开源 组 合 ， 
Novell SUSE Linux Enterprise Server 最 先 采 用 了 Xen 虚拟 技术 。 它 特别 适用 于 服务 器 应 
用 整合 ,可 有 效 节 省 运营 成 本 ,提高 设备 利用 率 ,最 大 化 地 利用 数据 中 心 的 IT 基础 架构 。 

下 面 为 两 个 应 用 案例 。 

1. 腾讯 公司 中 国 的 Web 服务 公司 

腾讯 公司 经 过 多 方 测试 比较 后 ,最 终 选择 了 Novell SUSE Linux Enterprise Server 中 
的 Xen 超 虚拟 化 技术 。 该 技术 不 仅 帮 助 腾讯 改善 了 硬件 利用 率 , 并 且 提 高 了 系统 负载 变化 
时 的 灵活 性 。 腾 讯 公司 人 员 说 :“ 在 引入 Xen 超 虚 拟 化 技术 后 ,我 们 可 以 在 每 台 物 理 机 器 上 
运行 多 个 虚拟 服务 器 ,这 意味 着 我 们 可 以 显著 地 扩大 用 户 群 ,而 不 用 相应 地 增加 硬件 成 本 。” 





2. 宝马 集团 一 一 驰名 世界 的 高 档 汽车 生产 企业 

宝马 集团 (BMW Group) 利 用 Novell 带 有 集成 Xen 虚拟 化 软件 的 SUSE Linux 
Enterprise Server 来 执行 其 数据 中 心 的 虚拟 化 工作 ,从 而 降低 硬件 成 本 、 简 化 部 署 流 程 。 采 
用 虚拟 化 技术 使 该 公司 节省 了 高 达 70% 的 硬件 成 本 ,同时 也 节省 了 大 量 的 电力 成 本 。 


3.5.2 KVM 
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KVM 是 Kernel based Virtual Machine 的 简称 ,是 一 个 开源 的 系统 虚拟 化 模块 , 自 
Linux 2. 6. 20 之 后 集成 在 Linux 的 各 个 主要 发 行 版 本 中 。 它 使 用 Linux 自身 的 调度 器 进行 
管理 ,所 以 相对 于 Xen, 其 核心 源码 很 少 。KVM 目前 已 成 为 学 术 界 的 主流 VMM 之 一 。 

KVM 的 虚拟 化 需要 硬件 支持 (如 Intel VT 技术 或 者 AMD V 技术 )。 它 是 基于 硬件 的 
完全 虚拟 化 。 图 3-8 是 KVM 的 基本 结构 ,其 中 从 下 到 上 分 别 是 : Linux 内 核 模式 、Linux 用 





















































户 模式 以 及 客户 模式 。 
"gn 
客户 模式 用 户 模式 
内 核 模式 
Qemu 
LibKvm 
Linux Ii | | | | 
用 户 模式 ioctl 
[9] 
KVM fd 
/dev/kvm |Kvm-vm fd| Kvm-vcpu fd 
i Perils VMM(Linux 内 核 +KVM Driver) 
图 3-8 KVM 基本 结构 
KVM 的 应 用 案例 如 下 。 


通过 在 IBM Systems x Server 和 V7000 上 使 用 KVM 虚拟 化 技术 ,Vissensa(Vissensa 
是 一 家 传统 的 系统 集成 商 , 提 供 高 质量 的 数据 中 心 托 管 服务 ) 能 够 在 各 种 设备 中 配置 移动 企 
业 应 用 程序 ,从 而 为 企业 员工 实现 单一 管理 平台 ,确保 他 们 与 通用 桌面 服务 和 企业 应 用 程序 
的 连接 。 通 过 KVM 解决 方案 ,Vissensa 能 以 物美 价 廉 的 方式 为 其 客户 快速 分 配 容量 ,轻松 
进行 向 上 或 向 下 扩展 ,满足 不 可 预知 的 需求 , 按 需 获得 云 资源 。 


3.5.3 OpenVZ 


OpenVZ 是 SWsoft Inc. 公司 开发 的 专 有 软件 Virtuozzo 的 基础 。OpenVZ 的 授权 为 
GPLv2。 图 3-9 是 OpenVZ 的 基本 结构 ,简单 来 说 ,OpenVZ 由 两 部 分 组 成 ,一 个 经 修改 过 


的 操作 系统 核心 和 用 户 工具 。 


OpenVZ 是 基于 Linux 内 核 和 作业 系统 的 操作 系统 级 虚拟 化 技术 。OpenVZ 允许 物理 
服务 器 运行 多 个 操作 系统 ,被 称 为 虚拟 专用 服务 器 (Virtual Private Server,VPS) 或 虚拟 环 
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图 3-9 OpenVZ 基本 结构 


境 (Virtual Environment,VE)。 与 VMware 这 种 虚拟 机 和 Xen 这 种 半 虚 拟 化 技术 相 比 ， 
OpenVZ 的 host OS 和 guest OS 都 必须 是 Linux( 虽 然 在 不 同 的 虚拟 环境 里 可 以 用 不 同 的 
Linux 发 行 版 )。 但 是 ,OpenVZ 声称 这 样 做 有 性 能 上 的 优势 。 根 据 OpenVZ 网 站 的 说 法 ， 
使 用 OpenVZ 与 使 用 独立 的 服务 器 相 比 ,性 能 只 会 有 1%~3% 的 损失 。 


3.6 虚拟 化 未 来 发 展 趋势 


从 整体 的 虚拟 化 技术 应 用 及 发 展 来 看 ,以 下 几 点 可 能 会 成 为 未 来 的 发 展 趋势 。 

1. 连接 协议 标准 化 

桌面 虚拟 化 连接 协议 目前 有 VMware 的 PCoIP、Citrix 的 ICA, f xl] RDP 等 。 未 来 
桌面 连接 协议 标准 化 之 后 ,将 解决 终端 和 云 平台 之 间 的 广泛 兼容 性 ,形成 良性 的 产业 链 
结构 。 

2. 平台 开放 化 

作为 基础 平台 ,封闭 架构 会 带 来 不 兼容 性 ,并 且 无 法 支持 异 构 虚 拟 机 系统 ,也 难以 支撑 
开放 合作 的 产业 链 需 求 。 而 随 着 云 计 算 时 代 的 来 临 ,虚拟 化 管理 平台 逐步 走向 开放 平台 架 
构 ,多 种 厂家 的 虚拟 机 可 以 在 开放 的 平台 架构 下 共存 ,不 同 的 应 用 厂商 可 以 基于 开放 平台 架 
构 下 不 断 地 丰富 云 应 用 。 

3. 公有 云 私 有 化 

在 公有 云 场景 下 (如 产业 园区 ) ,整体 IT 架构 构建 在 公有 云 上 。 在 这 种 情况 下 对 于 数 
据 的 安全 性 有 非常 高 的 要 求 。 可 以 说 ,如 果 不 能 解决 公有 云 的 安全 性 ,就 难以 推进 企业 IT 


第 3 章 虚拟 化 s 


架构 向 公有 云 模式 的 转变 。 在 公有 云 场景 下 , 云 服务 提供 商 需 要 提供 类 似 于 VPN 的 技术 ， 
把 企业 的 IT 架构 变 成 到 加 在 公有 云 上 的 “私有 云 ”, 这 样 既 享 受 了 公有 云 的 服务 便利 性 ,又 
可 以 保证 私有 数据 的 安全 性 。 

4. 虚拟 化 客户 端 硬件 化 

和 传统 的 PC 终端 相 比 , 当 前 的 桌面 虚拟 化 和 应 用 虚拟 化 技术 对 于 * 富 媒体 ”( 指 具有 动 
inj 声音、 视频 和 交互 性 的 信息 传播 方法 ) 的 客户 体验 还 是 有 一 定 的 差距 的 ,主要 原因 是 其 对 
于 2D/3D/ 视 频 /Flash 等 “ 富 媒体 ”缺少 硬件 辅助 虚拟 化 支持 。 随 着 虚拟 化 技术 越 来 越 成 熟 
以 及 其 广泛 的 应 用 ,终端 芯片 将 可 能 逐步 加 强 对 于 虚拟 化 的 支持 ,从 而 通过 硬件 辅助 处 理 来 
提升 “ 富 媒体 ”的 用 户 体验 。 特 别 是 对 于 PAD、 智 能 手机 等 移动 终端 设备 来 说 ,如 果 对 虚拟 
化 指令 有 较 好 的 硬件 辅助 支持 ,这 将 有 利于 实现 虚拟 化 技术 在 移动 终端 的 落地 。 

云 计算 时 代 是 开放 、 共 赢 的 时 代 , 作 为 云 计 算 基 础 架构 的 虚拟 化 技术 ,将 会 不 断 有 新 的 
技术 变革 ,逐步 增强 开放 性 、 安 全 人 性、 兼容 性 以 及 用 户 体验 。 


习题 


1. 虚拟 化 的 定义 是 什么 ? 
2. 为 什么 要 使 用 虚拟 化 ? 
3. 虚拟 化 与 云 计算 的 关系 是 什么 ? 
A. 虚拟 化 技术 包括 哪些 ? 


TE 
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本 章 介绍 常见 的 云 计算 应 用 ,包括 谷歌 的 云 计 算 平 台 和 应 用 、 亚 马 逊 的 弹性 计算 云 、 
IBM 的 蓝 云 计算 平 台 、 清 华 大 学 透明 计算 平台 .阿里 云 和 Microsoft Azure。 通 过 本 章 的 学 
习 , 读 者 能 够 对 常见 的 云 应 用 有 所 了 解 。 


4.1 概述 


云 计算 资源 规模 庞大 ,服务 器 数量 众多 并 分 布 在 不 同 的 地 点 ,同时 运行 着 数 百 种 应 用 ， 
如 何 有 效 地 管理 这 些 服务 器 ,保证 整个 系统 提供 不 间断 的 服务 ,是 巨大 的 挑战 。 

云 计 算 系 统 的 平台 管理 技术 能 够 使 大 量 的 服务 器 协同 工作 ,方便 地 进行 业务 部 署 和 开 
通 ,快速 发 现 和 恢复 系统 故障 ,通过 自动 化 .智能 化 的 手段 实现 大 规模 系统 的 可 靠 运 营 。 

云 计算 作为 一 种 新 型 的 计算 模式 ,还 处 于 早期 发 展 阶段 。 众 多 大 小 不 一 、 类 型 各 异 的 提 
供 商 提供 了 各 自 基 于 云 计 算 的 应 用 服务 。 

“ 云 应 用 ?是 “ 云 计 算 ” 概 念 的 子 集 , 是 云 计算 技术 在 应 用 层 的 体现 。 云 应 用 跟 云 计算 最 
大 的 不 同 在 于 , 云 计算 作为 一 种 宏观 技术 发 展 概念 而 存在 ,而 云 应 用 则 是 直接 面 对 客 户 解决 
实际 问题 的 产品 。 

云 应 用 的 工作 原理 是 把 传统 软件 “本 地 安装 、 本 地 运算 ”的 使 用 方式 变 为 “ 即 取 即 用 ”的 
服务 ,通过 互联 网 或 局 域 网 连接 并 操控 远程 服务 器 集群 ,完成 业务 逻辑 或 运算 任务 的 一 种 新 
型 应 用 。 云 应 用 的 主要 载体 为 互联 网 技术 ,以 瘦 客 户 端 (Thin Client) 或 智能 客户 端 (Smart 
Client) 的 展现 形式 ,其 界面 实质 上 是 HTML 5 JavaScript 或 Flash 等 技术 的 集成 。 云 应 用 
不 但 可 以 帮助 用 户 降 低 IT 成 本 ,更 能 大 大 提高 工作 效率 ,因此 传统 软件 向 云 应 用 转型 的 发 
展 革新 浪潮 已 经 不 可 阻挡 。 

云 应 用 具有 云 计 算 技术 概念 的 所 有 特性 ,概括 来 讲 分 为 以 下 三 个 方面 。 
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1 跨 平台 性 

大 部 分 的 传统 软件 应 用 只 能 运行 在 单一 的 系统 环境 中 ,例如 , 某 些 应 用 只 能 安装 在 
Windows XP 下 ,而 对 于 较 新 的 Windows 8、Window 10 系统 或 Windows 、 
OSX 与 Linux, 又 或 者 是 当前 流行 的 Android 与 iOS 等 智能 设备 操作 系统 , 则 不 能 兼容 使 
用 。 在 现今 这 个 智能 操作 系统 兴起 、 传 统 PC 操作 系统 早已 不 再 是 Windows XP 一 统 天 下 
的 局 面 下 , 云 应 用 的 跨 平台 特性 可 以 帮助 用 户 大 大 降低 使 用 成 本 ,并 提高 工作 效率 。 

2. 易 用 性 

复杂 的 设置 是 传统 软件 的 特色 , 越 是 强大 的 软件 应 用 ,其 设置 也 越 复 杂 。 而 云 应 用 不 但 
完全 有 能 力 实现 不 输 于 传统 软件 的 强大 功能 ,更 把 复杂 的 设置 变 得 极其 简单 。 ee 
要 用 户 进行 传统 软件 那样 的 下 载 .安装 等 复杂 部 署 流程 ,更 可 借助 于 远程 服务 器 集群 时 刻 同 
步 的 云 特性 , 免 去 用 户 永 无 止境 的 软件 更 新 之 苦 。 如 果 云 应 用 有 任何 更 新 ,用 户 只 需 简 单 地 
操作 (如 刷新 一 下 网 页 ) , 便 可 完成 升级 并 开始 使 用 最 新 的 功能 。 

3. 轻 量 性 

安装 众多 的 传统 本 地 软件 不 但 会 拖 慢 计 算 机 ,更 带 来 了 如 隐私 泄漏 、 木 马 病毒 等 诸多 安 
全 问题 。 云 应 用 的 界面 说 到 底 是 HTML 5、JavaScript 或 Flash 等 技术 的 集成 ,其 轻 量 的 特 
点 首先 保证 了 应 用 的 流畅 运行 ,让 计算 机 重新 “健步 如 飞 ”。 优 秀 的 云 应 用 更 提供 了 银行 级 
的 安全 防护 ,将 传统 由 本 地 木马 或 病毒 所 导致 的 隐私 泄漏 ,系统 崩溃 等 风险 降 到 最 低 。 

常见 的 提供 商 如 下 。 

1. Amall 中 国 云 应 用 平台 

中 国 云 应 用 平台 为 中 小 企业 提供 办 公 软 件 、. 财 务 软件 .营销 软件 、 推 广 软件 .网络 营销 软 
件 等 的 在 线 购买 和 快速 部 署 ,并 提供 免费 的 软件 试用 平台 。 其 独 有 的 应 用 软件 与 云 计算 服 
务 器 一 体 化 的 概念 ,帮助 企业 快速 部 署 各 项 软件 应 用 ,实现 快速 的 云 应 用 。 

2. Gleasy 云 操 作 系 统 

Gleasy 是 一 款 面 向 个 人 和 企业 用 户 的 云 服 务 平台 ,可 通过 网 页 及 客户 端 两 种 方式 登 

REAA PC 操作 系统 十 分 接近 ,其 中 包括 即时 通信 、 邮 箱 、.OA、 网 盘 、 办 公 协 同等 多 款 云 
应 用 ,用 户 也 可 以 通过 应 用 商店 安装 自己 想 要 的 云 应 用 。 

Gleasy 由 杭州 格 畅 科技 开发 ,团队 认为 云 应 用 已 十 分 普及 ,但 始终 无 集中 管理 的 平台 。 
用 户 ( 特 别 是 企业 用 户 ) 需 要 一 个 一 次 登录 即 可 解决 日 常 应 用 需求 的 环境 。 

Gleasy 的 “一 盘 ” 云 存储 ,包括 在 线 编辑 及 直接 共享 等 功能 。 

Gleasy 从 “系统 ”上 看 由 三 个 层次 组 成 : 基础 环境 、 系 统 应 用 、 应 用 商店 和 开放 平台 。 

基础 环境 为 运行 和 管理 云 应 用 的 基础 环境 ,包括 Gleasy 桌面 、 账 号 管理 ,G 币 充 值 与 消 
费 、 消 息 中 心 等 。 

系统 应 用 主要 包含 一 说 (即时 通信 ) .一 信 ( 邮 箱 ) .一 盘 ( 文 件 云 存储 及 在 线 编辑 ) ,联系 
人 (名 片 、 好 友 动 态 、 个 人 主页 ) ,记事 本 、 表 格 等 在 线 编辑 工具 及 图 片 查看 器 、.PDF 阅读 器 等 
辅助 性 工具 。 

应 用 商店 及 开放 平台 类 似 于 PC 上 的 可 安装 软件 或 智能 手机 中 的 App。 第 三 方 应 用 经 
过 改造 后 可 入 驻 , 目 前 有 美 图 秀 秀 、 金 山 词霸 \ 挖 财 记 账 、 虾 米 音乐 等 应 用 。 
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3. 燕麦 企业 云 盘 

燕麦 企业 云 盘 (OATOS) 一 改 云 计算 技术 方案 难 懂 、 昂 贵 、 部 署 复杂 等 缺点 ,通过 潜心 
钻研 把 云 计 算 方案 变 成 “ 即 取 即 用 ”的 云 应 用 程式 ,从 而 方便 了 企业 的 云 信息 化 转型 之 路 。 
燕麦 企业 云 盘 云 应 用 程序 包括 云 存 储 ` 即 时 通信 、 云 视频 会 议 、 移 动 云 应 用 (支持 iOS 及 
Android) 等 。 

4. Google Apps for Business 

Google 公司 是 云 应 用 的 探 路 人 ,为 云 应 用 在 企业 特别 是 中 小 企业 中 的 普及 做 出 了 卓越 
的 贡献 。Google 企业 云 应 用 产品 Google Apps for Business 在 全 球 已 经 拥有 了 400 万 企业 
客户 。Google Apps for Business 为 企业 提供 了 邮件 .日 程 管理 存储、 文档 .信息 保险 箱 等 
众多 企业 云 应 用 程序 。 

5. Microsoft Office 365 

传统 企业 办 公 软 件 龙 头 微软 公司 也 推出 了 其 云 应 用 Office 365 产品 ,这 预示 着 微软 公 
司 已 经 清楚 意识 到 云 应 用 的 未 来 发 展 价值 。Office 365 将 微软 公司 旗下 的 众多 企业 服务 器 
软件 ,如 Exchange Server, SharePoint, Lync, Office 等 以 云 应 用 的 方式 提供 给 客户 ,企业 客 

户 只 需 按 需 付 费 即 可 。 


4.2 Google 公司 的 云 计算 平台 与 应 用 


Google 公司 的 云 计算 技术 实际 上 是 针对 Google 公司 特定 的 网 络 应 用 程序 而 定制 的 。 
针对 内 部 网 络 数据 规模 超大 的 特点 ,Google 公司 提出 了 一 整套 基于 分 布 式 并 行 集群 方式 的 
基础 架构 ,利用 软件 的 能 力 来 处 理 集群 中 经 常 发 生 的 节点 失效 问题 。 

从 2003 年 开始 ,Google 公司 连续 几 年 在 计算 机 系统 研究 领域 顶级 的 会 议 与 杂志 上 发 
表 论 文 , 揭 示 其 内 部 的 分 布 式 数据 处 理 方法 ,向 外 界 展示 其 使 用 的 云 计算 核心 技术 。 从 其 近 
几 年 发 表 的 论文 来 看 ,Google 公司 使 用 的 云 计算 基础 架构 模式 包括 4 个 相互 独立 又 紧密 结 
合 在 一 起 的 系统 。 包 括 Google 建立 在 集群 之 上 的 文件 系统 Google File System、 针 对 
Google 公司 应 用 程序 的 特点 提出 的 Map/Reduce 编程 模式 、 分 布 式 的 锁 机 制 Chubby 以 及 
Google 开发 的 模型 简化 的 大 规模 分 布 式 数据 库 BigTable。 


4.2.1 MapReduce 分 布 式 编程 环境 


为 了 让 内 部 非 分 布 式 系统 方向 背景 的 员工 能 够 有 机 会 将 应 用 程序 建立 在 大 规模 的 集群 
基础 之 上 ,Google 公司 还 设计 并 实现 了 一 套 大 规模 数据 处 理 的 编程 规范 MapReduce 系统 。 
BORE , 非 分 布 式 专业 的 程序 编写 人 员 也 能 够 为 大 规模 的 集群 编写 应 用 程序 而 不 用 去 顾虑 集 
群 的 可 靠 性 、 可 扩展 性 等 问题 。 应 用 程序 编写 人 员 只 需要 将 精力 放 在 应 用 程序 本 身 , 而 关于 
集群 的 处 理 问 题 , 则 交 由 平台 来 处 理 。 

MapReduce 通过 Map( 上 映射 ) 和 Reduce( 化 简 ) 这 样 两 个 简单 的 概念 来 参加 运算 ,用 户 
只 需要 提供 自己 的 Map 函数 以 及 Reduce 函数 .就 可 以 在 集群 上 进行 大 规模 的 分 布 式 数据 
处 理 。 




















第 4 章 云 计算 的 应 





据 称 ,Google 公司 的 文本 索引 方法 , 即 搜索 引擎 的 核心 部 分 ,已 经 通过 MapReduce 的 
方法 进行 了 改写 ,获得 了 更 加 清晰 的 程序 架构 。 在 Google 公司 内 部 ,每 天 有 上 千 个 
MapReduce 的 应 用 程序 在 运行 。 


4.2.2 分 布 式 大 规模 数据 库 管 理 系统 BigTable 


构建 于 上 述 两 项 基础 之 上 的 第 三 个 云 计算 平台 就 是 Google 公司 关于 将 数据 库 系统 扩 
展 到 分 布 式 平台 上 的 BigTable 系统 。 很 多 应 用 程序 对 于 数据 的 组 织 还 是 非常 有 规则 的 。 
一 般 来 说 ,数据 库 对 于 处 理 格 式 化 的 数据 还 是 非常 方便 的 ,但 是 由 于 关系 数据 库 很 强 的 一 致 
性 要 求 ,很 难 将 其 扩展 到 很 大 的 规模 。 为 了 处 理 Google 公司 内 部 大 量 的 格式 化 以 及 半 格 式 
化 数据 ,Google 公司 构建 了 弱 一 致 性 要 求 的 大 规模 数据 库 系统 BigTable。 据 称 ,现在 有 很 
多 Google 公司 的 应 用 程序 建立 在 BigTable 之 上 ,例如 Search History, Maps, Orkut 和 
RSS 阅读 器 等 。 

BigTable 模型 中 的 数据 模型 包括 行列 以 及 相应 的 时 间 戳 ,所 有 的 数据 都 存放 在 表格 中 
的 单元 里 。BigTable 的 内 容 按照 行 来 划分 ,将 多 个 行 组 成 一 个 小 表 , 保 存 到 某 一 个 服务 器 
节点 中 。 这 一 个 小 表 就 被 称 为 Tablet, 

以 上 是 Google 公司 内 部 云 计算 基础 平台 的 三 个 主要 部 分 。 除 了 这 三 个 部 分 之 外 ， 
Google 公司 还 建立 了 分 布 式 程序 的 调度 器 、 分 布 式 的 锁 服务 等 一 系列 相关 的 云 计 算 服务 
平公 5 


4.2.3 Google 的 云 应 用 


除了 上 述 云 计算 基础 设施 之 外 ,Google 公司 还 在 其 云 计 算 基础 设施 之 上 建立 了 一 系列 
新 型 网 络 应 用 程序 。 由 于 借鉴 了 异步 网 络 数据 传输 的 Web 2. 0 技术 ,这 些 应 用 程序 给 予 用 
户 全 新 的 界面 感受 以 及 更 加 强大 的 多 用 户 交 互 能 力 。 其 中 ,典型 的 Google 公司 云 计 算 应 用 
程序 就 是 Google 公司 推出 的 与 Microsoft Office 软件 进行 竞争 的 Docs 网 络 服务 程序 。 
Google Docs 是 一 个 基于 Web 的 工具 , 它 具 有 与 Microsoft Office 相近 的 编辑 界面 ,有 一 套 
简单 易 用 的 文档 权限 管理 ,而 且 它 还 记录 下 所 有 用 户 对 文档 所 做 的 修改 。Google Docs 的 
这 些 功 能 令 它 非常 适用 于 网 上 共享 与 协作 编辑 文档 。Google Docs 甚至 可 以 用 于 监控 责任 
清晰 .目标 明确 的 项 目 进度 。 当 前 ,Google Docs 已 经 推出 了 文档 编辑 、 电 子 表格 、 幻 灯 片 演 
示 日 程 管理 等 多 个 功能 的 编辑 模块 ,能 够 奉 代 Microsoft Office 的 一 部 分 相应 功能 。 通 过 
这 种 云 计 算 方 式 形成 的 应 用 程序 非常 适合 于 多 个 用 户 进行 共享 以 及 协同 编辑 ,为 一 个 小 组 
的 人 员 进 行 共同 创作 带 来 很 大 的 便利 。 

Google Docs 是 云 计算 的 一 种 重要 应 用 , 即 可 以 通过 浏览 器 的 方式 访问 远 端 大 规模 的 
存储 与 计算 服务 。 云 计算 能 够 为 大 规模 的 新 一 代 网 络 应 用 打下 良好 的 基础 。 

虽然 Google 公司 可 以 说 是 云 计算 的 最 大 实践 者 ,但 是 ,Google 公司 的 云 计算 平台 是 私 
有 的 环境 ,特别 是 Google 公司 的 云 计算 基础 设施 还 没有 开放 出 来 。 除 了 开放 有 限 的 应 用 程 
序 接口 ,例如 GWT(Google Web Toolkit) 和 Google Map API 等 ,Google 公司 并 没有 将 云 
计算 的 内 部 基础 设施 共享 给 外 部 的 用 户 使 用 ,上 述 的 所 有 基础 设施 都 是 私有 的 。 

幸运 的 是 ,Google 公司 公开 了 其 内 部 集群 计算 环境 的 一 部 分 技术 ,使 得 全 球 的 技术 开 
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发 人 员 能 够 根据 这 一 部 分 文档 构建 开源 的 大 规模 数据 处 理 云 计算 基础 设施 ,其 中 最 有 名 的 
项 目 即 Apache 旗下 的 Hadoop 项 目 。 而 下 面 两 个 云 计 算 的 实现 则 为 外 部 的 开发 人 员 以 及 
中 小 公司 提供 了 云 计算 的 平台 环境 ,使 得 开发 者 能 够 在 云 计算 的 基础 设施 之 上 构建 自己 的 
新 型 网 络 应 用 。 其 中 ,IBM 的 蓝 云 计算 平台 是 可 供销 售 的 计算 平台 ,用 户 可 以 基于 这 些 软 
硬件 产品 自己 构建 云 计算 平台 。 亚 马 逊 的 弹性 计算 云 则 是 托管 式 的 云 计算 平台 ,用 户 可 以 
通过 远 端的 操作 界面 直接 使 用 。 


4.3 亚马逊 的 弹性 计算 云 


亚马逊 公司 是 互联 网 上 最 大 的 在 线 零售 商 ,同时 也 为 独立 开发 人 员 以 及 开发 商 提 供 云 
计算 服务 平台 。 亚 马 逊 公司 将 他 们 的 云 计算 平台 称 为 弹性 计算 云 (Elastic Compute Cloud, 
EC2) ,是 最 早 提供 远程 云 计算 平台 服务 的 公司 。 


4.3.1 开放 的 服务 


与 Google 公司 提供 的 云 计 算 服 务 不 同 ,Google 公司 仅 为 自己 在 互联 网 上 的 应 用 提供 
云 计算 平台 ,独立 开发 商 或 者 开发 人 员 无 法 在 这 个 平台 上 工作 ,因此 只 能 转 而 通过 开源 的 
Hadoop 软件 支持 来 开发 云 计算 应 用 。 亚 马 逊 公司 的 弹性 计算 云 服 务 也 和 IBM 公司 的 云 计 
算 服 务 平台 不 一 样 ,亚马逊 公司 不 销售 物理 的 云 计算 服务 平台 ,没有 类 似 于 “ 蓝 云 ” 一 样 的 计 
算 平 台 。 亚 马 逊 公司 将 自己 的 弹性 计算 云 建立 在 公司 内 部 大 规模 集群 计算 的 平台 之 上 ,而 
用 户 可 以 通过 弹性 计算 云 的 网 络 界面 去 操作 在 云 计算 平台 上 运行 的 各 个 实例 (Instance)， 
付费 方式 则 由 用 户 的 使 用 状况 决定 , 即 用 户 仅 需 要 为 自己 所 使 用 的 计算 平台 实例 付费 ,运行 
结束 后 计 费 也 随 之 结束 

从 沿革 上 来 看 ,弹性 计算 云 并 不 是 亚马逊 公司 推出 的 第 一 项 这 种 服务 , 它 由 名 为 亚马逊 
网 络 服务 的 现 有 平台 发 展 而 来 。 早 在 2006 年 3 月 .亚马逊 公司 就 发 布 了 简单 存储 服务 
(Simple Storage Service. S3) ,这 种 存储 服务 按照 每 个 月 类 似 租金 的 形式 进行 服务 付费 , 同 
时 用 户 还 需要 为 相应 的 网 络 流量 进行 付费 。 亚马逊 网 络 服务 平台 使 用 REST 
(Representational State Transfer) 和 简单 对 象 访问 协议 (SOAP) 等 标准 接口 ,用 户 可 以 通过 
这 些 接口 访问 到 相应 的 存储 服务 。 

2007 年 7 月 ,亚马逊 公司 推出 了 简单 队列 服务 (Simple Queue Service, SQS) ,这 项 服务 
使 托管 主机 可 以 存储 计算 机 之 间 发 送 的 消息 。 通 过 这 一 项 服务 ,应 用 程序 编写 人 员 可 以 在 
分 布 式 程序 之 间 进 行 数据 传递 ,而 无 须 考虑 消息 丢失 的 问题 。 通 过 这 种 服务 方式 ,即使 消息 
的 接收 方 还 没有 模块 启动 也 没有 关系 。 服 务 内 部 会 缓存 相应 的 消息 ,一 旦 有 消息 接收 组 件 
被 启动 运行 , 则 队列 服务 将 消息 提交 给 相应 的 运行 模块 进行 处 理 。 同 样 地 ,用 户 必须 为 这 种 
消息 传递 服务 进行 付费 , 计 费 的 规则 与 存储 计 费 规则 类 似 , 依 据 消息 的 个 数 以 及 消息 传递 的 
大 小 进行 收费 。2016 年 ,亚马逊 公司 云 计算 平台 直接 提供 AI SaaS ,意味 着 这 方面 的 创业 机 
会 基本 消失 。 

在 亚马逊 公司 提供 上 述 服务 的 时 候 , 并 没有 从 头 开始 开发 相应 的 网 络 服务 组 件 ,而 是 对 
公司 已 有 的 平台 进行 优化 和 改造 ,一 方面 满足 了 本 身 网 络 零售 购物 应 用 程序 的 需求 , 另 一 方 
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面 也 供 外 部 开发 人 员 使 用 。 
在 开放 了 上 述 的 服务 接口 之 后 ,亚马逊 公司 进一步 在 此 基础 上 开发 了 EC2 系统 ,并 且 
开放 给 外 部 开发 人 员 使 用 。 


4.3.2 灵活 的 工作 模式 


亚马逊 公司 的 云 计算 模式 沿袭 了 简单 易 用 的 传统 ,并 且 建立 在 亚马逊 公司 现 有 的 云 计 
算 基础 平台 之 上 。 弹 性 计算 去 用 户 使 用 客户 端 通过 SOAP over HT TPS 协议 来 实现 与 亚 马 
逊 公司 弹性 计算 云 内 部 的 实例 进行 交互 。 使 用 HTTPS 协议 的 原因 是 为 了 保证 远 端 连接 的 
安全 性 ,避免 用 户 数据 在 传输 的 过 程 中 造成 泄漏 。 因 此 ,从 使 用 模式 上 来 看 ,弹性 计算 云 平 
台 为 用 户 或 者 开发 人 员 提 供 了 一 个 虚拟 的 集群 环境 ,使 得 用 户 的 应 用 具有 充分 的 灵活 性 , 同 
时 也 减轻 了 云 计算 平台 拥有 者 (亚马逊 公司 ) 的 管理 负担 。 

而 弹性 计算 云 中 的 实例 是 一 些 真正 在 运行 中 的 虚拟 机 服务 器 ,每 一 个 实例 代表 一 个 运 
行 中 的 虚拟 机 。 对 于 提供 给 某 一 个 用 户 的 虚拟 机 ,该 用 户 具 有 完整 的 访问 权限 ,包括 针对 此 
虚拟 机 的 管理 员 用 户 权 限 。 虚 拟 服务 器 的 收费 也 是 根据 虚拟 机 的 能 力 进行 计算 的 ,因此 , 实 
际 上 用 户 租 用 的 是 虚拟 的 计算 能 力 ,简化 了 计 费 方式 。 在 弹性 计算 云 中 ,提供 了 三 种 不 同 能 
力 的 虚拟 机 实例 ,具有 不 同 的 收费 价格 。 如 其 中 默认 的 最 小 的 运行 实例 是 1. 7GB 的 内 存 、 
一 个 EC2 的 计算 单元 ,160GB 虚拟 机 内 部 存储 容量 的 一 个 32 位 的 计算 平台 ,收费 标准 为 10 
美 分 /小 时 。 在 当前 的 计算 平台 中 ,还 有 两 种 性 能 更 加 强劲 的 虚拟 机 实例 可 供 使 用 ,当然 价 
格 也 更 加 昂贵 一 点 儿 。 

由 于 用 户 在 部 署 网 络 程序 的 时 候 , 一 般 会 使 用 超过 一 个 运行 实例 ,需要 很 多 个 实例 共同 
工作 。 弹 性 计算 云 的 内 部 也 架设 了 实例 之 间 的 内 部 网 络 ,使 得 用 户 的 应 用 程序 在 不 同 的 实 
例 之 间 可 以 通信 。 在 弹性 计算 云 中 的 每 一 个 计算 实例 都 具有 一 个 内 部 的 IP 地 址 ,用 户 程序 
可 以 使 用 内 部 IP 地 址 进行 数据 通信 ,以 获得 数据 通信 的 最 好 性 能 。 每 一 个 实例 也 具有 外 部 
的 地 址 ,用 户 可 以 将 分 配给 自己 的 弹性 IP 地 址 分 配给 自己 的 运行 实例 ,使 得 建立 在 弹性 计 
算 云 上 的 服务 系统 能 够 为 外 部 提供 服务 。 当 然 ,亚马逊 公司 也 对 网 络 上 的 服务 流量 计 费 , 计 
费 规则 也 按照 内 部 传输 以 及 外 部 传输 进行 分 开 。 


4.3.3 总 结 


亚马逊 公司 通过 提供 弹性 计算 云 ,减少 了 小 规模 软件 开发 人 员 对 于 集群 系统 的 维护 ,并 
且 收 费 方式 相对 简单 明了 ,用 户 使 用 多 少 资源 ,只 需要 为 这 一 部 分 资源 付费 即 可 。 这 种 付费 
方式 与 传统 的 主机 托管 模式 不 同 。 传 统 的 主机 托管 模式 让 用 户 将 主机 放 到 托管 公司 ,用户 
一 般 需要 根据 最 大 或 者 计划 的 容量 进行 付费 ,而 不 是 根据 使 用 情况 进行 付费 ,而 且 可 能 还 需 
要 根据 服务 的 可 靠 性 、 可 用 性 等 付出 更 多 费用 ,而 很 多 时 候 , 服 务 并 没有 进行 满 额 资源 使 用 。 
但 是 根据 亚马逊 公司 的 模式 ,用 户 只 需要 为 实际 使 用 情况 付费 即 可 。 

在 用 户 使 用 模式 上 ,亚马逊 公司 的 弹性 计算 云 要 求 用 户 要 创建 基于 亚马逊 规格 的 服务 
器 映像 (名 为 亚马逊 机 器 映像 , 即 亚 马 逊 Machine Image. AMD, 。 弹 性 计算 云 的 目标 是 服务 
器 映像 能 够 拥有 用 户 想 要 的 任何 一 种 操作 系统 、 应 用 程序 、 配 置 、 登 录 和 安全 机 制 , 但 是 当前 
情况 下 , 它 只 支持 Linux 内 核 。 通 过 创建 自己 的 AMI, 或 者 使 用 亚马逊 公司 预先 为 用 户 提 
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供 的 AMI, 用 户 在 完成 这 一 步骤 后 将 AMI 上 传 到 弹性 计算 云 平台 ,然后 调用 亚马逊 的 应 用 
编程 接口 (APD ,对 AMI 进行 使 用 与 管理 。AMI 实际 上 就 是 虚拟 机 的 映像 ,用 户 可 以 使 用 
它们 来 完成 任何 工作 ,如 运行 数据 库 服务 器 ,构建 快速 网 络 下 载 的 平台 、 提 供 外 部 搜索 服务 
甚至 可 以 出 租 自 己 具 有 特色 的 AMI 而 获得 收益 等 。 用 户 所 拥有 的 多 个 AMI 可 以 通过 通信 
而 彼此 合作 ,就 像 当 前 的 集群 计算 服务 平台 一 样 。 

在 弹性 计算 云 将 来 的 发 展 过 程 中 ,亚马逊 公司 也 规划 了 如 何在 云 计 算 平 台 之 上 帮助 用 
户 开发 Web 2.0 的 应 用 程序 。 亚 马 逊 公司 认为 除了 它 所 依赖 的 网 络 零售 业务 之 外 , 云 计 算 
也 是 亚马逊 公司 的 核心 价值 所 在 。 可 以 预见 ,在 将 来 的 发 展 过 程 中 ,亚马逊 公司 必然 会 在 弹 
性 计算 云 的 平台 上 添加 更 多 的 网 络 服务 组 件 模块 ,为 用 户 构建 云 计 算 应 用 提供 方便 。 


4.4 IBM 蓝 云 云 计算 平台 


IBM 公司 在 2007 年 11 月 15 日 推出 了 蓝 云云 计算 平台 ,为 客户 带 来 * 即 买 即 用 ”的 云 计 
算 平台 。 它 包括 一 系列 的 云 计 算 产 品 , 使 得 计算 不 仅 局 限 在 本 地 机 器 或 远程 服务 器 农场 ( 即 
服务 器 集群 ) ,通过 架构 一 个 分 布 式 、 可 全 球 访问 的 资源 结构 ,使 得 数据 中 心 在 类 似 于 互联 网 
的 环境 下 运行 计算 。 

通过 IBM 公司 的 技术 白皮书 ,可 以 一 窥 蓝 云云 计算 平台 的 内 部 构造 。 蓝 云云 计算 平台 
建立 在 TBM 大 规模 计算 领域 的 专业 技术 基础 上 ,基于 由 IBM 软件 .系统 技术 和 服务 支持 的 
开放 标准 和 开源 软件 。 简 单 地 说 , 蓝 云云 计算 平台 是 基于 IBM Almaden 研究 中 心 
(Almaden Research Center) 的 云 基础 架构 ,包括 Xen 和 PowerVM 虚拟 化 .Linux 操作 系统 
映像 以 及 Hadoop 文件 系统 与 并 行 构建 。 蓝 云云 计算 平台 由 IBM Tivoli 软件 支持 ,通过 管 
理 服务 器 来 确保 基于 需求 的 最 佳 性 能 。 这 包括 通过 能 够 跨越 多 服务 器 实时 分 配 资源 的 软件 
为 客户 带 来 一 种 无 颖 体验 ,加 速 性 能 并 确保 在 最 苛刻 环境 下 的 稳定 性 。IBM 公司 新 近 发 布 
的 蓝 云 计 划 ,帮助 用 户 进行 云 计 算 环境 的 搭建 。 它 通过 将 Tivoli, DB2, WebSphere 与 硬件 
产品 (目前 是 x86 刀片 服务 器 ) 集 成 ,为 企业 架设 一 个 分 布 式 、 可 全 球 访问 的 资源 结构 。 根 据 
IBM 的 计划 , 首 款 支持 Power 和 x86 处 理 器 刀片 服务 器 系统 的 蓝 云 产 品 已 于 2008 年 推出 ， 
随后 推出 了 基于 System z 大 型 主机 的 云 环 境 和 基于 高 密度 机 架 集 群 的 云 环 境 。 

在 IBM 的 云 计算 白皮书 上 ,可 以 看 到 蓝 云 云 计算 平台 配置 情况 ,如 图 4-1 所 示 。 

可 以 看 到 , 蓝 云云 计算 平台 由 一 个 包含 IBM Tivoli 部 署 管理 软件 (Tivoli Provisioning 
Manager) ,IBM Tivoli 监控 软件 (IBM Tivoli Monitoring), IBM WebSphere 应 用 服务 器 、 
IBM DB2 数据 库 以 及 一 些 虚拟 化 的 组 件 的 数据 中 心 共同 组 成 。 

蓝 云云 计算 平台 的 硬件 平台 并 没有 什么 特殊 的 地 方 , 但 是 蓝 云 云 计 算 平 台 使 用 的 软件 
平台 相 较 于 以 前 的 分 布 式 平台 具有 不 同 的 地 方 , 主 要 体现 在 对 于 虚拟 机 的 使 用 以 及 对 于 大 
规模 数据 处 理 软件 Apache Hadoop 的 部 署 。Hadoop 是 网 络 开 发 人 员 根 据 Google 公司 公 
开 的 资料 开发 出 来 的 类 似 于 Google File System 的 Hadoop File System 以 及 相应 的 Map/ 
Reduce 编程 规范 。 由 于 Hadoop 是 开源 的 ,因此 可 以 被 用 户 单位 直接 修改 ,以 适合 应 用 的 
特殊 需求 。IBM 公司 的 蓝 云云 计算 平台 产品 则 直接 将 Hadoop 软件 集成 到 自己 本 身 的 云 计 
算 平台 之 上 。 
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图 4-1 蓝 云云 计算 的 高 层 结构 


4.4.1 监 云云 计算 平台 中 的 虚拟 化 


从 蓝 云云 计算 平台 的 结构 上 还 可 以 看 出 ,在 每 一 个 节点 上 运行 的 软件 栈 与 传统 的 软件 
栈 , 一 个 很 大 的 不 同 在 于 蓝 云云 计算 平台 内 部 使 用 了 虚拟 化 技术 。 虚 拟 化 的 方式 在 云 计 算 
中 可 以 在 两 个 级 别 上 实现 。 一 个 级 别 是 在 硬件 级 别 上 实现 虚拟 化 。 硬 件 级 别 的 虚拟 化 可 以 
使 用 IBM P 系列 的 服务 器 ,获得 硬件 的 罗 辑 分 区 LPAR. 38 ESS IX f. CPU 资源 能 够 通过 
IBM Enterprise Workload Manager 来 管理 。 通 过 这 样 的 方式 再 加 上 在 实际 使 用 过 程 中 的 
资源 分 配 策略 ,能够 使 得 相应 的 资源 合理 地 分 配 到 各 个 逻辑 分 区 。P 系列 系统 的 逻辑 分 区 
最 小 粒度 是 1/10 颗 中 央 处 理 器 (CPU) 。 

虚拟 化 的 另外 一 个 级 别 可 以 通过 软件 来 获得 ,在 蓝 云云 计算 平台 中 使 用 了 Xen 虚拟 化 
软件 。Xen 也 是 一 个 开源 的 虚拟 化 软件 .能 够 在 现 有 的 Linux 基础 之 上 运行 另外 一 个 操作 
系统 ,并 通过 虚拟 机 的 方式 灵活 地 进行 软件 部 署 和 操作 。 

通过 虚拟 机 的 方式 进行 云 计算 资源 的 管理 具有 特殊 的 好 处 。 由 于 虚拟 机 是 一 类 特殊 的 
软件 ,能够 完全 模拟 硬件 的 执行 ,因此 能 够 在 上 面 运行 操作 系统 ,进而 保留 一 整套 运行 环境 
语义 。 这 样 ,可 以 将 整个 执行 环境 通过 打包 的 方式 传输 到 其 他 物理 节点 上 ,就 能 够 使 得 执行 
环境 与 物理 环境 隔离 ,方便 整个 应 用 程序 模块 的 部 署 。 总 体 来 说 ,通过 将 虚拟 化 的 技术 应 用 
到 云 计 算 的 平台 ,可 以 获得 如 下 一 些 良好 的 特性 。 

CO 云 计算 的 管理 平台 能 够 动态 地 将 计算 平台 定位 到 所 需要 的 物理 平台 上 ,而 无 须 
停止 运行 在 虚拟 机 平台 上 的 应 用 程序 ,这 比 采 用 虚拟 化 技术 之 前 的 进程 迁移 方法 更 加 

(2) 能 够 更 加 有 效率 地 使 用 主机 资源 ,将 多 个 负载 不 是 很 重 的 虚拟 机 计算 节点 合并 到 
同一 个 物理 节点 上 .从 而 能 够 关闭 空闲 的 物理 节点 ,达到 节约 电能 的 目的 。 

(3) 通过 虚拟 机 在 不 同 物理 节点 上 的 动态 迁移 ,能 够 获得 与 应 用 无 关 的 负载 平衡 性 能 。 
由 于 虚拟 机 包含 整个 虚拟 化 的 操作 系统 以 及 应 用 程序 环境 ,因此 在 进行 迁移 的 时 候 带 着 整 
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个 运行 环境 ,达到 了 与 应 用 无 关 的 目的 。 

(4) 在 部 署 上 也 更 加 灵活 , 即 可 以 将 虚拟 机 直接 部 署 到 物理 计算 平台 中 。 

总 而 言 之 ,通过 虚拟 化 的 方式 , 云 计算 平台 能 够 具有 极其 灵活 的 特性 ,而 如 果 不 使 用 虚 
拟 化 的 方式 则 会 有 很 多 的 局 限 。 


4.4.2 ” 监 云 云 计算 平台 中 的 存储 结构 


蓝 云云 计算 平台 中 的 存储 体系 结构 对 于 云 计算 来 说 也 是 非常 重要 的 ,无 论 是 操作 系统 、 
服务 程序 还 是 用 户 应 用 程序 的 数据 都 保存 在 存储 体系 中 。 云 计算 并 不 排斥 任何 一 种 有 用 的 
存储 体系 结构 ,而 是 需要 跟 应 用 程序 的 需求 结合 起 来 获得 最 好 的 性 能 提升 。 总 体 来 说 , 云 计 
算 的 存储 体系 结构 包含 类 似 于 Google File System 的 集群 文件 系统 以 及 基于 块 设备 方式 的 
存储 区 域 网 络 SAN 系统 两 种 方式 。 

在 设计 云 计 算 平 台 存储 体系 结构 的 时 候 , 不 仅 需 要 考虑 存储 的 容量 ,实际 上 随 着 硬盘 容 
量 的 不 断 扩充 以 及 硬盘 价格 的 不 断 下 降 ,使 用 当前 的 磁盘 技术 ,可 以 很 容易 通过 使 用 多 个 磁 
盘 的 方式 获得 很 大 的 磁盘 容量 。 相 较 于 磁盘 的 容量 ,在 云 计 算 平 台 的 存储 中 ,磁盘 数据 的 读 
写 速度 却 是 一 个 更 重要 的 问题 。 单 个 磁盘 的 速度 很 有 可 能 限制 应 用 程序 对 于 数据 的 访问 ， 
因此 在 实际 使 用 的 过 程 中 ,需要 将 数据 分 布 到 多 个 磁盘 之 上 ,并且 通 过 对 于 多 个 磁盘 的 同时 
读 写 达到 提高 速度 的 目的 。 在 云 计算 平台 中 ,数据 如 何 放置 是 一 个 非常 重要 的 问题 ,在 实际 
使 用 的 过 程 中 ,需要 将 数据 分 配 到 多 个 节点 的 多 个 磁盘 当中 。 而 能 够 达到 这 一 目的 的 存储 
技术 趋势 当前 有 两 种 方式 : 一 种 是 使 用 类 似 于 Google File System 的 集群 文件 系统 ; 另外 
一 种 是 基于 块 设备 的 存储 区 域 网 络 SAN 系统 。 

Google 文件 系统 前 面 已 经 做 过 一 定 的 描述 。 在 IBM 公司 的 蓝 云 云 计 算 平 台中 使 用 的 
是 它 的 开源 实现 Hadoop HDFS (Hadoop Distributed File System) 。 这 种 使 用 方式 将 磁盘 
附着 于 节点 的 内 部 ,并 且 为 外 部 提供 一 个 共享 的 分 布 式 文件 系统 空间 ,并 且 在 文件 系统 级 别 
做 宛 余 以 提高 可 靠 性 。 在 合适 的 分 布 式 数据 处 理 模 式 下 ,这 种 方式 能 够 提高 总 体 的 数据 处 
理 效 率 。Google 文件 系统 的 这 种 架构 与 SAN 系统 有 很 大 的 不 同 。 

SAN 系统 也 是 云 计算 平台 的 另外 一 种 存储 体系 结构 选择 ,在 蓝 云 平台 上 也 有 一 定 的 体 
现 ,IBM 也 提供 SAN 系统 的 平台 ,能 够 接 入 到 蓝 云云 计算 平台 中 。 如 图 4-2 所 示 是 一 个 
SAN 系统 的 结构 示意 图 。 
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图 4-2 SAN 系统 结构 示意 图 
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SAN 系统 是 在 存储 端 构建 存储 的 网 络 中 ,将 多 个 存储 设备 构成 一 个 存储 区 域 网 络 。 前 
端的 主机 可 以 通过 网 络 的 方式 访问 后 端的 存储 设备 。 由 于 提供 了 块 设备 的 访问 方式 ,因此 
与 前 端 操作 系统 无 关 。 在 SAN 系统 连接 方式 上 ,可 以 有 多 种 选择 。 一 种 选择 是 使 用 光纤 
网 络 ,能 够 操作 快速 的 光纤 磁盘 ,适合 于 对 性 能 与 可 靠 性 要 求 比 较 高 的 场所 ; 另外 一 种 选择 
是 使 用 以 太 网 ,采取 iSCSI 协议 ,能 够 运行 在 普通 的 局 域 网 环境 下 ,从 而 降低 了 成 本 。 由 于 
存储 区 域 网 络 中 的 磁盘 设备 并 没有 与 某 一 台 主机 绑 定 在 一 起 ,而 是 采用 了 非常 灵活 的 结构 ， 
因此 对 于 主机 来 说 可 以 访问 多 个 磁盘 设备 ,从 而 能 够 获得 性 能 的 提升 。 在 存储 区 域 网 络 中 ， 
使 用 虚拟 化 的 引擎 来 进行 逻辑 设备 到 物理 设备 的 映射 ,管理 前 端 主机 到 后 端 数据 的 读 写 。 
因此 虚拟 化 引擎 是 存储 区 域 网 络 中 非常 重要 的 管理 模块 。 

SAN 系统 与 分 布 式 文件 系统 (例如 Google File System) 并 不 是 相互 对 立 的 系统 ,而 是 
在 构建 集群 系统 的 时 候 可 供 选 择 的 两 种 方案 。 其 中 ,在 选择 SAN 系统 的 时 候 , 为 了 应 用 程 
序 的 读 写 ,还 需要 为 应 用 程序 提供 上 层 的 语义 接口 ,此 时 就 需要 在 SAN 系统 之 上 构建 文件 
系统 。 而 Google File System 正好 是 一 个 分 布 式 的 文件 系统 ,因此 能 够 建立 在 SAN 系统 之 
上 。 总 体 来 说 ,SAN 系统 与 分 布 式 文件 系统 都 可 以 提供 类 似 的 功能 ,例如 对 于 出 错 的 处 理 
等 。 至 于 如 何 使 用 ,还 是 需要 由 建立 在 云 计 算 平 台 之 上 的 应 用 程序 来 决定 。 


4.5 清华 大 学 透明 计算 平台 


清华 大 学 张 阁 学 教授 领导 的 研究 小 组 从 1998 年 开始 就 从 事 透 明 计 算 系 统 和 理论 的 研 
究 ,2004 年 前 后 正式 提出 ,并 不 断 完善 了 透明 计算 的 概念 和 相关 理论 。 

随 着 硬件 ,软件 以 及 网 络 技术 的 发 展 ,计算 模式 从 大 型 计算 机 逐渐 过 渡 到 微型 个 人 计算 
机 的 方式 ,近年 来 又 过 渡 到 普 适 计算 上 。 但 是 用 户 仍 然 很 难 获得 异 构 类 型 的 操作 系统 以 及 
应 用 程序 ,在 轻 量 级 的 设备 上 很 难 获得 完善 的 服务 。 而 在 透明 计算 中 ,用 户 无 须 感知 计算 具 
体 所 在 位 置 以 及 操作 系统 、 中 间 件 、 应 用 等 技术 细节 ,只 需要 根据 自己 的 需求 ,通过 连通 在 网 
络 之 上 的 各 种 设备 选取 相应 的 服务 。 如 图 4-3 所 示 ,显示 了 透明 计算 平台 的 三 个 重要 组 成 
部 分 。 








4-3 透明 计算 平台 组 成 


用 户 的 显示 界面 是 前 端的 轻 权 设备 ,包括 各 种 个 人 计算 机 笔记 本 、PDA、 智 能 手机 等 ， 
被 统称 为 透明 客户 端 。 透明 客 户 端 可 以 是 没有 安装 任何 软件 的 裸 机 ,也 可 以 是 装 有 部 分 核 
心软 件 平台 的 轻巧 性 终端 。 中 间 的 透明 网 络 则 整合 了 各 种 有 线 和 无 线 网 络 传输 设施 ,主要 
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用 来 在 各 种 透明 客户 端 与 后 台 服 务 器 之 间 完 成 数据 的 传递 ,而 用 户 无 须 意识 到 网 络 的 存在 。 
与 云 计算 基础 服务 设施 构想 一 致 ,透明 服务 器 不 排斥 任何 一 种 可 能 的 服务 提供 方式 , 既 可 通 
过 当前 流行 的 PC 服务 器 集群 方式 来 构建 透明 服务 器 集群 ,也 可 使 用 大 型 服务 器 等 。 前 透 
明 计算 平台 已 经 达到 了 平台 异 构 的 目的 ,能 够 支持 Linux 以 及 Windows 操作 系统 的 运行 。 
用 户 具 有 很 大 的 灵活 性 ,能 够 自主 选择 自己 所 需要 的 操作 系统 运行 在 透明 客户 端 上 。 透 明 
服务 器 使 用 了 流行 的 PC 服务 器 集群 的 方式 ,预先 存储 了 各 种 不 同 的 操作 平台 ,包括 操作 系 
统 的 运行 环境 、 应 用 程序 以 及 相应 的 数据 。 每 个 客户 端 从 透明 服务 器 上 获取 并 建立 整个 运 
行 环境 以 满足 用 户 对 于 不 同 操作 环境 的 需求 。 由 于 用 户 之 间 的 数据 相互 隔离 ,因此 服务 器 
集群 可 以 选取 用 户 相对 独立 的 方式 进行 存储 ,使 得 整个 系统 能 够 扩展 到 很 大 的 规模 。 在 服 
务 器 集群 之 上 进行 相应 的 宛 余 出 错 处 理 , 很 好 地 保护 了 每 个 用 户 的 透明 计算 数据 安全 性 。 





4.6 阿里 云 


阿里 云 是 阿里 巴巴 集团 旗下 的 云 计算 品牌 ,全 球 卓 越 的 云 计算 技术 和 服务 提供 商 , 创 立 
于 2009 年 ,在 杭州 .北京 ,硅谷 等 地 设 有 研发 中 心 和 运营 机 构 。 


4.6.1 阿里 云 简介 


阿里 云 创立 于 2009 年 ,是 中 国 的 云 计算 平台 ,服务 范围 获 盖 全 球 两 百 多 个 国家 和 地 区 。 
阿里 云 致 力 于 为 企业 、 政 府 等 组 织 机 构 提供 最 安全 可靠 的 计算 和 数据 处 理 能 力 , 让 计算 成 
为 普 惠 科技 和 公共 服务 ,为 万 物 互 联 的 DT 世界 提供 源源 不 断 的 新 能 源 。 

阿里 云 的 服务 群体 包括 微 博 、 知 乎 魅族 ,锤子 科技 、 小 咖 秀 等 一 大 批 明星 互联 网 公司 。 
在 天 猫 * 双 11” 全 球 狂 欢 节 、12306 春运 购 票 等 极 具 挑战 性 的 应 用 场景 中 ,阿里 云 保持 着 良好 
的 运行 纪录 。 此 外 ,阿里 云 广泛 在 金融 .交通 、 基 因 、 医 疗 ,` 气象 等 领域 输出 一 站 式 的 大 数据 
解决 方案 。 

2014 年 ,阿里 云 曾 帮 助 用 户 抵 御 全 球 互 联网 史上 最 大 的 DDoS 攻击 ,峰值 流量 达到 
453. 8Gb/s。 在 Sort Benchmark 2015 世界 排序 竞赛 中 ,阿里 云 利 用 自 研 的 分 布 式 计 算 平台 
ODPS, 377s 完成 100TB 数据 排序 ,刷新 了 Apache Spark 1406s 的 世界 纪录 。 

阿里 云 在 全 球 各 地 部 署 高 效 节 能 的 绿色 数据 中 心 , 利 用 清洁 计算 支持 不 同 的 互联 网 应 
用 。 目 前 ,阿里 云 在 杭州 .北京 青岛 深圳、 上 海 .千岛 湖 、 内 蒙古 、 中 国 香港 .新 加 坡 、 美 国 硅 
谷 、 俄 罗斯 等 地 域 设 有 数据 中 心 , 未 来 还 将 在 日 本 、 欧 洲 、 中 东 等 地 设立 新 的 数据 中 心 。 


4.6.2 阿里 云 的 发 展 过 程 


2009 4E 9 H 10 日 ,阿里 巴巴 集团 十 周年 庆典 上 ,阿里 巴巴 云 计算 团队 以 独立 身份 出 
现 ,命名 为 “阿里 云 ” 的 子 公司 正式 成 立 。 

从 2010 年 开始 ,阿里 云 正 式 对 外 提供 云 计 算 商业 服务 ,希望 能 够 帮助 更 多 的 中 小 企业 、 
金融 、 科 研 机 构 ,政府 部 门 ,实现 计算 资源 的 互联 网 化 。 

针对 不 同行 业 的 特点 ,阿里 云 提供 了 政务 、 游 戏 、 金 融 、 电 商 、 移 动 、 医 疗 、 多 媒体 、 物 联 
网 .O20O 等 行业 解决 方案 。 其 中 ,金融 云 是 为 金融 行业 量 身 定制 的 云 计算 服务 ,具备 低 成 
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本 、 高 弹性 、 高 可 用 、 安 全 合 规 的 特性 ,帮助 金融 客户 实现 从 传统 IT 向 云 计算 的 转型 ,助力 
金融 客户 业务 创新 。 

电 商 云 又 名 “ 聚 石塔 ”, 其 价值 在 于 把 “ 电 商 ”和 “ 云 ” 的 价值 结合 ,基于 阿里 云 强 大 的 云 计 
算 产 品 技术 ,结合 淘宝 开放 平台 的 电 商 数据 及 服务 ,为 电子 商务 生态 中 的 服务 商 、 商 家 提供 
安全 、 弹 性、 高 效 、 稳 定 的 基础 运行 环境 。 

2013 年 8 月 ,阿里 云 成 为 世界 上 第 一 个 对 外 提供 5K 云 计 算 服 务 能 力 的 公司 。 飞 天 5K 
单 点 服务 器 集群 拥有 超过 10 万 核 计算 的 能 力 、100PB 存储 空间 ,可 处 理 15 万 并 发 任务 数 ， 
承载 亿 级 别 文件 数目 。 

2014 年 7 月 ,阿里 云 计 算 最 重要 的 产品 ODPS 正式 开放 商用 。ODPS 可 在 6 小 时 内 处 
HE 100PB 数据 。 通 过 ODPS 在 线 服务 ,小 型 公司 花 几 百 元 即 可 分 析 海 量 数据 。 

2014 年 8 月 ,阿里 云 发 布 “ 云 合计 划 ”, 希 望 能 够 与 合作 伙伴 一 起 构建 适应 DT (Data 
Technology) 时 代 的 云 生态 体系 。 阿 里 云 在 这 个 生态 圈 里 的 定位 非常 清楚 一 一 生态 圈 的 最 
底层 ,提供 云 计算 的 基础 服务 ,如 弹性 计算 .存储 服务 .大 规模 计算 等 。 

2014 年 11 月 ,运行 在 阿里 云 计算 上 的 “中 国药 品 电子 监管 网 ”, 正 式 通过 国家 信息 安全 
等 级 保护 三 级 测评 。 这 是 全 国 首 例 部 署 在 “云端 ”的 部 委 级 应 用 系统 。 

2014 年 12 月 ,阿里 云 抵御 了 全 球 互 联网 史上 最 大 DDoS 的 攻击 。 攻 击 时 间 长 达 14 小 
时 ,攻击 峰值 流量 达到 453. 8Gb/s。 

2015 年 ,阿里 云 加 快 了 全 球 化 步伐 ,陆续 启用 新 加 坡 数据 中 心 ,美国 硅谷 两 个 大 型 数据 
中 心 , 扩 建 中 国 香港 数据 中 心 。2015 年 5 月 ,迪拜 领军 企业 Meraas 控股 集团 和 阿里 云 正式 
签署 合作 协议 ,合资 成 立 全 新 的 技术 型 企业 ,为 中 东 、 北 非 地 区 的 企业 以 及 政府 机 构 提 供 服 
务 。2015 年 6 月 ,阿里 云 启 动 全 球 合作 伙伴 计划 (MAP) ,在 世界 范围 内 寻找 顶尖 的 合作 伙 
伴 , 一 同 构建 适应 DT 时 代 的 去 生态 体系 。 英 特 尔 .新加坡 电信 .迪拜 Meraas 控股 集团 等 首 
批 加 入 。2015 年 11 月 ,阿里 云 完成 中 国 香港 数据 中 心 的 规模 扩大 ,正式 启用 该 数据 中 心 第 
二 个 可 用 区 (Availability Zone) 。 此 外 ,阿里 云 国 际 站 也 同步 上 线 。 截 止 到 2015 年 11 A, 
阿里 云 在 杭州 .北京 .青岛 深圳 上海. 千 岛 湖 、. 中 国 香港 ,新加坡 、 硅 谷 9 个 地 域 设 有 数据 中 
心 , 未 来 还 会 在 日 本 .欧洲 .中 东 等 地 设立 新 的 数据 中 心 。 

2015 4E 7 H 29 日 ,阿里 巴巴 集团 宣布 对 阿里 云 战略 增资 60 亿 , 用 于 国际 业务 拓展 、 云 
计算 、 大 数据 领域 基础 和 技术 的 研发 ,以 及 DT 生态 体系 的 建设 。 阿 里 巴巴 集团 CEO 张 勇 
表示 ,“ 阿 里 巴巴 集团 对 云 计算 的 投入 放 在 最 高 战略 优先 级 ”。 同 一 天 ,阿里 巴巴 集团 与 用 友 
网 络 科 技 股份 有 限 公 司 在 北京 签署 全 面 战略 合作 协议 。 

阿里 巴巴 集团 发 布 2015 年 财报 显示 ,阿里 云 前 三 个 季度 分 别 获得 了 82%、106%、 
128% 的 增 速 , 超 越 亚马逊 和 微软 的 云 计算 业务 增 速 ,成 为 全 球 增 速 最 快 的 云 计算 服务 商 。 

2015 年 , 云 计 算 在 成 为 各 个 领域 基础 设施 的 同时 ,进一步 发 挥 了 计算 的 力量 ,数据 成 为 
新 的 能 源 。2015 4E 4 月 ,中 石化 与 阿里 云 共 同 宣布 展开 技术 合作 ,借助 云 计算 和 大 数据 ,部 
分 传统 石油 化 工业 务 将 进行 升级 ,新 的 商业 服务 模式 将 会 展开 。2015 4E 5 月 ,华夏 保险 决 
定 采用 云 和 分 布 式 技术 重 构 其 电 商 业务 系统 ,新 的 电 商 系统 将 基于 阿里 金融 云 进 行 建设 , 华 
夏 保险 成 为 国内 首 家 将 关键 业务 部 署 到 公共 云 平台 的 人 寿 保险 机 构 。2015 4E 7 月 ,阿里 云 
宣布 联合 中 国 科 学 院 成 立 全 新 的 实验 室 , 共 同 开展 在 量子 信息 科学 领域 的 前 脆性 研究 ,研制 
量子 计算 机 。2015 年 10 月 ,阿里 云 与 英特尔 、 华 大 基因 合作 , 共 建 中 国力 至 亚太 地 区 首 个 
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定位 精准 医疗 应 用 云 平台 ,促进 精准 医疗 的 发 展 。 

2015 年 10 月 ,阿里 云 "2015 杭州 云 栖 大 会 ?吸引 了 全 球 两 万 多 名 开发 者 参加 ,阿里 云 及 
其 合作 伙伴 在 大 会 上 展示 了 量子 计算 、 人 工 智 能 等 前 沿 科技 ,同时 发 布 15 款 新 品 。 同 时 , 阿 
里 云 新 的 品牌 口号 一 一 “为 了 无 法 计算 的 价值 ”曝光 。 

2015 4E X f HL 11”, 阿 里 云 用 技术 支撑 912 亿 交 易 额 ,每 秒 交 易 创 建 峰值 达 14 万 笔 。 
全 球 最 大 规模 混合 云 架 构 、 全 球 首 个 核心 交易 系统 上 云 .1000 千 米 外 交易 支付 “异地 多 活 ”、 
全 球 首 个 金融 级 数据 库 OceanBase 等 世界 级 的 技术 ,通过 阿里 云 向 外 输出 。 

大 数据 时 代 , 云 计算 成 为 经 济 社会 发 展 的 基础 设施 。 政 府 成 为 云 计算 最 为 积极 的 实践 
者 之 一 。 目 前 ,全 国 引入 阿里 云 计算 的 省 份 和 直辖 市 包括 海南 、 浙 江 、 贵 州 、 广 西河 南 、 河 
北 、 宁 夏 、 新 疆 、 甘 肃 、 广 东 、 吉 林 、 天 津 、 云 南 、 福 建 、 上 海 等 。 

各 地 政府 希望 借助 云 计算 推动 电子 政务 、 政 府 网 络 采购 、 交 通 、 医 疗 、 旅 游 、 商 圈 服 务 等 
政府 公共 服务 的 电 商 化 、 无 线 化 .智慧 化 应 用 ,同时 推动 传统 工业 、 金 融 业 、 服 务 业 的 转型 升 
级 ,催生 带动 一 批 本 地 创新 创业 企业 发 展 。 浙 江 省 水 利 厅 将 台风 路 径 实时 发 布 系统 搬 上 阿 
里 云 , 以 应 对 台风 天 突 增 时 的 上 百倍 访问 量 ; 2014 年 5 月 ,中 国 气象 局 与 阿里 云 达成 合作 ， 
共同 挖掘 气象 大 数据 的 价值 ; 2015 年 5 月 ,中 国 交通 通信 信息 中 心 研发 .运营 的 宝 船 网 2. 0 
系统 与 阿里 云 合作 ,使 公众 可 以 查询 全 球 超 过 30 万 条 船舶 的 实时 位 置 和 历史 轨迹 。 

截至 2014 年 6 月 ,阿里 云 服务 的 政府 ,企业 客户 超过 140 万 ,涵盖 电子 商务 ,数字 娱乐 、 
金融 服务 .医疗 健康 .气象 .政府 管理 等 多 个 领域 。 


4.6.3 阿里 云 的 主要 产品 


阿里 云 的 产品 致力 于 提升 运 维 效率 ,降低 IT 成 本 , 令 使 用 者 更 专注 于 核心 业务 发 展 。 

1. 底层 技术 平台 

阿里 云 独立 研发 的 飞天 开放 平台 (Apsara) ,负责 管理 数据 中 心 Linux 集群 的 物理 资源 ， 
控制 分 布 式 程序 运行 ,隐藏 下 层 故 障 恢复 和 数据 完 余 等 细节 ,从 而 将 数 以 千 计 甚至 万 计 的 服 
务 器 联 成 一 台 “ 超 级 计算 机 ”, 并 且 将 这 台 超 级 计算 机 的 存储 资源 和 计算 资源 ,以 公共 服务 的 
方式 提供 给 互联 网 上 的 用 户 。 

2. 弹性 计算 

(D 云 服务 器 ECS。 一 种 简单 高 效 、 处 理 能 力 可 弹性 伸缩 的 计算 服务 。 

(2) 云 引擎 ACE。 一 种 弹性 、 分 布 式 的 应 用 托管 环境 ,支持 Java, PHP, Python, Node. 
js 等 多 种 语言 环境 。 帮 助 开 发 者 快速 开发 和 部 署 服务 端 应 用 程序 ,并 简化 系统 维护 工作 。 
搭载 了 丰富 的 分 布 式 扩展 服务 ,为 应 用 程序 提供 强大 助力 。 

(3) 弹性 伸缩 。 根 据 用 户 的 业务 需求 和 策略 ,自动 调整 其 弹性 计算 资源 的 管理 服务 ,其 
能 够 在 业务 增长 时 自动 增加 ECS 实例 ,并 在 业务 下 降 时 自动 减少 ECS 实例 。 

3. 云 数 据 库 

(OD 云 数据 库 RDS。 一 种 即 开 即 用 、 稳 定 可 靠 、. 可 弹性 伸缩 的 在 线 数据 库 服务 。 基 于 飞 
天 分 布 式 系统 和 高 性 能 存储 ,RDS 支持 MySQL SQL Server, PostgreSQL 和 PPAS( 高 度 
兼容 Oracle) 引 擎 ,并 且 提 供 了 容 灾 、 备 份 ,恢复 监控、 迁移 等 方面 的 全 套 解决 方案 。 

(2) 开放 结构 化 数据 服务 OTS。 构 建 在 阿里 云 飞天 分 布 式 系统 之 上 的 NoSQL 数据 库 
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服务 ,提供 海量 结构 化 数据 的 存储 和 实时 访问 。OTS 以 实例 和 表 的 形式 组 织 数据 ,通过 数 
据 分 片 和 负载 均衡 技术 ,实现 规模 上 的 无 缝 扩展。 应 用 通过 调用 OTS API/SDK 或 者 操作 
管理 控制 台 来 使 用 OTS 服务 。 

G) 开放 缓存 服务 OCS。 在 线 缓存 服务 ,为 热点 数据 的 访问 提供 高 速 响应 。 

(4) 键 值 存储 KVStore for Redis。 兼 容 开 源 Redis 协议 的 Key Value 类 型 在 线 存储 服务 。 
KVStore 支持 字符 串 链表、 集合 有 序 集合 、 哈 希 表 等 多 种 数据 类 型 及 事务 Transactions ) , if 
息 订 阅 与 发 布 (Pub/Sub) 等 高 级 功能 。 通 过 内 存 加 硬盘 的 存储 方式 ,KVStore 在 提供 高 速 
数据 读 写 能 力 的 同时 满足 数据 持久 化 需求 。 

(5) 数据 传输 。 支 持 以 数据 库 为 核心 的 结构 化 存储 产品 之 间 的 数据 传输 。 它 是 一 种 集 
数据 迁移 .数据 订阅 及 数据 实时 同步 于 一 体 的 数据 传输 服务 。 数 据 传输 的 底层 数据 流 基础 
设施 为 数 千 下 游 应 用 提供 实时 数据 流 , 已 在 线 上 稳定 运行 三 年 之 久 。 

4. 存储 与 CDN 

CD 对 象 存储 OSS。 阿 里 云 对 外 提供 的 海量 、 安 全 和 高 可 靠 的 云 存 储 服务 。 

(2) 归档 存储 。 作 为 阿里 云 数据 存储 产品 体系 的 重要 组 成 部 分 ,致力 于 提供 低 成 本 、 高 
可 靠 的 数据 归档 服务 ,适合 于 海量 数据 的 长 期 归档 、 备 份 。 

(3) 消息 服务 。 一 种 高 效 、 可 靠 , 安 全 、 便 捷 、 可 弹性 扩展 的 分 布 式 消息 与 通知 服务 。 
消息 服务 能 够 帮助 应 用 开发 者 在 他 们 应 用 的 分 布 式 组 件 上 自由 地 传递 数据 ,构建 松 耦 合 

(4) CDN。 内 容 分 发 网 络 将 源 站 内 容 分 发 至 全 国 所 有 的 节点 ,缩短 用 户 查 看 对 象 的 延 
BS. ,提高 用 户 访问 网 站 的 响应 速度 与 网 站 的 可 用 性 ,解决 网 络 带 宽 小 ,用户 访 问 量 大 、 网 点 分 
布 不 均等 问题 。 

5. 网 络 

(1) 负载 均衡 。 对 多 台 云 服务 器 进行 流量 分 发 的 负载 均衡 服务 。 负 载 均 衡 可 以 通过 流 
量 分 发 扩展 应 用 系统 对 外 的 服务 能 力 , 通 过 消除 单 点 故障 提升 应 用 系统 的 可 用 性 。 

(2) 专 有 网 络 VPC。 帮 助 基于 阿里 云 构建 出 一 个 隔离 的 网 络 环境 。 可 以 完全 掌控 自己 
的 虚拟 网 络 ,包括 选择 自 有 TP 地 址 范围 .划分 网 段 .配置 路 由 表 和 网 关 等 ,也 可 以 通过 专线 / 
VPN 等 连接 方式 将 VPC 与 传统 数据 中 心 组 成 一 个 按 需 定 制 的 网 络 环境 ,实现 应 用 的 平滑 
迁移 上 云 。 

6. 大 规模 计算 

CD 开放 数据 处 理 服务 ODPS。 由 阿里 云 自主 研发 ,提供 针对 TB/PB 级 数据 .实时 性 
要 求 不 高 的 分 布 式 处 理 能 力 ,应 用 于 数据 分 析 、 挖 掘 、 商 业 智能 等 领域 。 阿 里 巴巴 的 离线 数 
据 业 务 都 运行 在 ODPS 上 。 

(2) 采 云 间 DPC。 基 于 开放 数据 处 理 服 务 (ODPS) 的 DW/BI 的 工具 解决 方案 。DPC 
提供 全 链 路 的 易于 上 手 的 数据 处 理工 具 , 包 括 ODPS IDE ,任务 调度 、 数 据 分 析 、 报 表 制 作 和 
元 数据 管理 等 ,可 以 大 大 降低 用 户 在 数据 仓库 和 商业 智能 上 的 实施 成 本 ,加 快 实施 进度 。 天 
弘 基金 ,高 德 地 图 的 数据 团队 基于 DPC 完成 他 们 的 大 数据 处 理 需求 。 

(3) 批量 计算 。 一 种 适用 于 大 规模 并 行 批 处 理 作业 的 分 布 式 云 服 务 。 批 量 计算 可 支持 
海量 作业 并 发 规模 ,系统 自动 完成 资源 管理 ,作业 调度 和 数据 加 载 ,并 按 实 际 使 用 量 计 费 。 
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批量 计算 广泛 应 用 于 电影 动画 泻 染 、 生 物 数据 分 析 、 多 媒体 转 码 ,金融 保险 分 析 等 领域 。 

(4) 数据 集成 。 阿 里 集团 对 外 提供 的 稳定 高 效 、 弹 性 伸缩 的 数据 同步 平台 ,为 阿里 云 大 
数据 计算 引擎 (包括 ODPS、 分 析 型 数据 库 .OSPS) 提 供 离线 (批量 )、 实 时 ( 流 式 ) 的 数据 进出 
通道 。 

7. 云 盾 

(1) DDoS 防护 服务 。 针 对 阿里 云 服务 器 在 遭受 大 流量 的 DDoS 攻击 后 导致 服务 不 可 
用 的 情况 下 ,推出 的 付费 增值 服务 ,用户 可 以 通过 配置 高 防 也 ,将 攻击 流量 引流 到 高 防 IP. 
确保 源 站 的 稳定 可 靠 。 免 费 为 阿里 云 上 客户 提供 最 高 5G 的 DDoS 防护 能 力 。 

(2) 安 骑士 。 阿 里 云 推出 的 一 款 免费 去 服务器 安全 管理 软件 ,主要 提供 木马 文件 查 杀 、 
防 密 码 暴 力 破解 高危 漏洞 修复 等 安全 防护 功能 。 

(3) 阿里 绿 网 。 基 于 深度 学 习 技 术 及 阿里 巴巴 多 年 的 海量 数据 支撑 ,提供 多 样 化 的 内 
容 识 别 服务 ,能 有 效 帮助 用 户 降低 违规 风险 。 

(4) 安全 网 络 。 一 款 集 安全 、 加 速 和 个 性 化 负载 均衡 为 一 体 的 网 络 接 入 产品 。 用 户 通 
过 接 入 安全 网 络 ,可 以 缓解 业务 被 各 种 网 络 攻击 造成 的 影响 ,提供 就 近 访 问 的 动态 加 速 
功能 。 

(5) DDoS 高 防 IP。 针 对 互联 网 服务 器 (包括 非 阿里 云 主机 ) 在 遭受 大 流量 的 DDoS I 
击 后 导致 服务 不 可 用 的 情况 下 ,推出 的 付费 增值 服务 ,用户 可 以 通过 配置 高 防 IP, 将 攻击 流 
量 引流 到 高 防 IP ,确保 源 站 的 稳定 可 靠 。 

(6) 网 络 安全 专家 服务 。 在 云 盾 DDoS 高 防 IP 服务 的 基础 上 ,推出 的 安全 代 维 托管 服 
务 。 该 服务 由 阿里 云云 盾 的 DDoS 专家 团队 为 企业 客户 提供 私家 定制 的 DDoS 防护 策略 优 
化 、 重 大 活动 保障 、 人 工 值守 等 服务 ,让 企业 客户 在 日 益 严 重 的 DDoS 攻击 下 高 枕 无 忧 。 

CD 服务 器 安全 托管 。 为 去 服务 器 提供 定制 化 的 安全 防护 策略 .木马 文件 检测 和 高 危 
漏洞 检测 与 修复 工作 。 当 发 生 安全 事件 时 ,阿里 云 安全 团队 提供 安全 事件 分 析 、 响 应 ,并 进 
行 系统 防护 策略 的 优化 。 

(8) 渗透 测试 服务 。 针 对 用 户 的 网 站 或 业务 系统 ,通过 模拟 黑客 攻击 的 方式 ,进行 专业 
性 的 入 侵 尝 试 ,评估 出 重大 安全 漏洞 或 隐患 的 增值 服务 。 

(9) 态势 感知 。 专 为 企业 安全 运 维 团队 打造 ,结合 云 主机 和 全 网 的 威胁 情报 ,利用 机 器 
学 习 , 进 行 安 全 大 数据 分 析 的 威胁 检测 平台 。 可 让 客户 全 面 、 快 速 , 准 确 地 感知 过 去 、 现 在 、 
未 来 的 安全 威胁 。 

8. 管理 与 监控 

(1) 云 监控 。 一 个 开放 性 的 监控 平台 ,可 实时 监控 站 点 和 服务 器 ,并 提供 多 种 告警 方式 
(短信 旺旺、 邮件 ) 以 保证 及 时 预警 ,为 站 点 和 服务 器 的 正常 运行 保驾 护航 。 

(2) 访问 控制 。 一 个 稳定 可 靠 的 集中 式 访问 控制 服务 。 可 以 通过 访问 控制 将 阿里 云 资 
源 的 访问 及 管理 权限 分 配给 企业 成 员 或 合作 伙伴 。 

9. 应 用 服务 

(1) 日 志 服 务 。 针 对 日 志 收 集 、 存 储 、 查 询 和 分 析 的 服务 。 日 志 服 务 可 收集 云 服务 和 应 
用 程序 生成 的 日 志 数 据 并 编制 索引 ,提供 实时 查询 海量 日 志 的 能 力 。 

(2) 开放 搜索 。 解 决 用 户 结构 化 数据 搜索 需求 的 托管 服务 ,支持 数据 结构 、 搜 索 排序 、 
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数据 处 理 自由 定制 。 

(3) 媒体 转 码 。 为 多 媒体 数据 提供 的 转 码 计算 服务 。 它 以 经 济 、 弹 性 和 高 可 扩展 的 音 
视频 转换 方法 ,将 多 媒体 数据 转 码 成 适合 在 PC、TV 以 及 移动 终端 上 播放 的 格式 。 

(4) 性 能 测试 。 全 球 领 先 的 SaaS 性 能 测试 平台 ,具有 强大 的 分 布 式 压 测 能 力 , 可 模拟 
海量 用 户 真实 的 业务 场景 ,让 应 用 性 能 问题 无 所 通 形 。 人 性 能 测试 包含 两 个 版 本 ,Lite 版 适合 
于 业务 场景 简单 的 系统 ,免费 使 用 ,企业 版 适合 于 承受 大 规模 压力 的 系统 ,同时 每 月 提供 免 
费 额 度 ,可 以 满足 大 部 分 企业 客户 。 

(5) 移动 数据 分 析 。 一 款 移动 App 数据 统计 分 析 产 品 ,提供 通用 的 多 维度 用 户 行为 分 
析 , 支 持 日 志 自 主 分 析 , 助 力 移动 开发 者 实现 基于 大 数据 技术 的 精细 化 运营 ,提升 产品 质量 
和 体验 ,增强 用 户 黏 性 。 

10. 万 网 服务 

阿里 云 旗下 万 网 域名 ,连续 19 年 蝉联 域名 市 场 第 一 名 , 近 一 千 万 个 域名 在 万 网 注册 。 
除 域名 外 ,提供 云 服 务 器 ` 云 虚拟 主机 、 企 业 邮箱 、 建 站 市 场 、 云 解析 等 服务 。2015 年 7 月 ， 
阿里 云 官网 与 万 网 网 站 合 二 为 一 ,万 网 旗下 的 域名 、 云 虚拟 主机 、 企 业 邮箱 和 建站 市 场 等 业 
务 深度 整合 到 阿里 云 官网 ,用 户 可 以 在 网 站 上 完成 网 络 创业 的 第 一 步 。 

















4.7 Microsoft Azure 


4.7.1 Microsoft Azure 简介 


Windows Azure 是 微软 基于 云 计算 的 操作 系统 ,现在 更 名 为 Microsoft Azure, fil Azure 
Services Platform 一 样 ,是 微软 “软件 和 服务 ”技术 的 名 称 。Microsoft Azure 的 主要 目标 是 
为 开发 者 提供 一 个 平台 ,帮助 开发 可 运行 在 云 服务 器 、 数 据 中 心 .Web 和 PC 上 的 应 用 程序 。 
云 计算 的 开发 者 能 使 用 微软 全 球 数据 中 心 的 储存 .计算 能 力 和 网 络 基础 服务 。Azure 服务 
平台 包括 以 下 主要 组 件 : Microsoft Azure. Microsoft SQL 数据 库 服务 Microsoft. NET 服 
务 ,用 于 分 享 .储存 和 同步 文件 的 Live 服务 ,针对 商业 的 Microsoft SharePoint 和 Microsoft 
Dynamics CRM 服务 。 

Microsoft Azure 是 一 种 灵活 和 支持 互 操 作 的 平台 , 它 可 以 被 用 来 创建 云 中 运行 的 应 用 
或 者 通过 基于 云 的 特性 来 加 强 现 有 应 用 。 它 开放 式 的 架构 给 开发 者 提供 了 Web 应用、 互联 
设备 的 应 用 .个 人 计算 机 、 服 务 器 或 者 提供 最 优 在 线 复杂 解决 方案 的 选择 。Microsoft Azure 
以 云 技术 为 核心 ,提供 了 软件 加 服务 的 计算 方法 。 它 是 Microsoft Azure 服务 平台 的 基础 。 
Microsoft Azure 能 够 将 处 于 云端 的 开发 者 个 人 能 力 同 微软 全 球 数据 中 心 网 络 托管 的 服务 ， 
例如 存储 、. 计 算 和 网 络 基础 设施 服务 ,紧密 结合 起 来 。 

微软 会 保证 Microsoft Azure 服务 平台 自始至终 的 开放 性 和 互 操作 性 。 确 信 企 业 的 经 
营 模式 和 用 户 从 Web 获取 信息 的 体验 将 会 因此 改变 。 最 重要 的 是 ,这 些 技术 将 使 用 户 有 能 
力 决定 ,是 将 应 用 程序 部 署 在 以 云 计 算 为 基础 的 互联 网 服务 上 ,还 是 将 其 部 署 在 客户 端 ,或 
者 根据 实际 需要 将 二 者 结合 起 来 。 

















49 


云 计 算 与 大 数据 技术 





4.7.2 Microsoft Azure 架构 


Microsoft Azure 是 专 为 在 微软 建设 的 数据 中 心 管理 所 有 服务 器 、 网 络 以 及 存储 资源 所 
开发 的 一 种 特殊 版 本 的 Windows Server 操作 系统 , 它 具 有 针对 数据 中 心 架构 的 自我 管理 
(Autonomous) 机 能 ,可 以 自动 监控 划分 在 数据 中 心 数 个 不 同 的 分 区 (微软 将 这 些 分 区 称 为 
Fault Domain) 的 所 有 服务 器 与 存储 资源 ,自动 更 新 补丁 ,自动 运行 虚拟 机 部 署 与 镜像 备份 
(Snapshot Backup) 等 能 力 。Microsoft Azure 被 安装 在 数据 中 心 的 所 有 服务 器 中 ,并 且 定 
时 和 中 控 软 件 (Microsoft Azure Fabric Controller) 进行 沟通 ,接收 指令 以 及 回 传 运行 状态 
数据 等 ,系统 管理 人 员 只 要 通过 Microsoft Azure Fabric Controller 就 能 够 掌握 所 有 服务 器 
的 运行 状态 ,Fabric Controller 本 身 是 融合 了 很 多 微软 系统 管理 技术 的 集成 ,包含 对 虚拟 机 
的 管理 (System Center Virtual Machine Manager)、 对 作业 环境 的 管理 (System Center 
Operation Manager) ,以 及 对 软件 部 署 的 管理 (System Center Configuration Manager) 等 ， 
在 Fabric Controller 中 被 发 挥 得 淋 演 尽 致 ,如 此 才能 够 具备 通过 Fabric Controller 来 管理 
在 数据 中 心中 所 有 服务 器 的 能 力 。 

Microsoft Azure 环境 除了 各 式 不 同 的 虚拟 机 外 , 它 也 为 应 用 程序 打造 了 分 散 式 的 巨 量 
存储 环境 (Distributed Mass Storage) ,也 就 是 Microsoft Azure Storage Services, 应 用 程序 
可 以 根据 不 同 的 存储 需求 来 选择 使 用 哪 一 种 或 哪 几 种 存储 的 方式 ,以 保存 应 用 程序 的 数据 ， 
而 微软 也 尽 可 能 提供 应 用 程序 的 兼容 性 工具 或 接口 ,以 降低 应 用 程序 移 转 到 Windows 
Azure 上 的 负担 。 

Microsoft Azure 不 但 是 开发 给 外 部 的 云 应 用 程序 使 用 的 , 它 也 作为 微软 许多 云 服务 的 
基础 平台 1% Microsoft Azure SQL Database 或 Dynamic CRM Online 这 类 在 线 服 务 。 


4.7.3 Microsoft Azure 服务 平台 


Microsoft Azure 服务 平台 现在 已 经 包含 网 站 、 虚 拟 机 、 云 服务 、 移 动 应 用 服务 .大 数据 
支持 以 及 媒体 等 功能 的 支持 。 

1. 网 站 

允许 使 用 ASP. NET, PHP 3X Node. js 构建 ,并 使 用 FTP、Git 或 TFS 进行 快速 部 署 ， 
支持 SQL Database, Caching, CDN X Storage. 

2. Virtual Machines 

在 Microsoft Azure 上 可 以 轻松 部 署 并 运行 Windows Server 和 Linux 虚拟 机 ; 迁移 应 
用 程序 和 基础 结构 ,而 无 须 更 改 现 有 代码 ; 支持 Windows Virtual Machines, Linux Virtual 
Machines、Storage、Virtual Network Identity 等 功能 。 

3. Cloud Services 

Microsoft Azure 中 的 企业 级 云 平 台 , 使 用 PaaS 环境 创建 高 度 可 用 且 可 无 限 缩放 的 应 
用 程序 和 服务 ; 支持 多 层 方案 .自动 化 部 署 和 灵活 缩放 ; 支持 Cloud Services, SQL 


Database, Caching, Business Analytics, Service Bus, Identity. 
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4. Mobile 服务 

Microsoft Azure 提供 的 移动 应 用 程序 的 完整 后 端 解决 方案 ,加 速 连接 的 客户 端 应 用 程 
序 开发 。 在 几 分 钟 内 并 入 结构 化 存储 、 用 户 身份 验证 和 推送 通知 。 支 持 SQL Database, 
Mobile 服务 ,并 可 以 快速 生成 Windows Phone、Android 或 iOS 应 用 程序 项 目 。 

5. 大 型 数据 处 理 

Microsoft Azure 提供 的 海量 数据 处 理 能 力 , 可 以 从 数据 中 获取 可 执行 洞察 力 , 利 用 完 
全 兼容 的 企业 准备 就 绪 Hadoop 服务 。PaaS 产品 /服务 提供 了 简单 的 管理 ,并 与 Active 
Directory 和 System Center 集成 。 支 持 Hadoop、Business Analytics, Storage, SQL 
Database 及 在 线 商 店 Marketplace。 

6. Media 媒体 支持 

支持 插入 ,编码 保护、 流 式 处 理 ,可 以 在 云 中 创建 ,管理 和 分 发 媒体 。 此 Paas 产品 / 服 
务 提供 从 编码 到 内 容 保护 再 到 流 式 处 理 和 分 析 支 持 的 所 有 内 容 , 支 持 CDN 及 Storage 
存储 。 


4.7.4 开发 步骤 


1. 使 用 Windows Azure 的 专用 工具 

微软 公司 的 旗舰 开发 工具 Visual Studio 中 有 一 套 针 对 Microsoft Azure 开发 工作 的 工 
具 , 这 一 点 并 不 让 人 感到 惊奇 。 可 以 通过 Visual Studio 安装 Microsoft Azure 工具 ,具体 的 
安装 步骤 可 能 因 版 本 而 有 所 不 同 。 创 建 一 个 新 项 目 时 ,能 够 选择 一 个 Microsoft Azure 项 目 
并 为 用 户 的 项 目 添 加 Web 和 Worker 角色 。Web 角色 是 专 为 运行 微软 TIS 实例 而 设计 的 ， 
而 Worker 角色 则 是 针对 禁用 微软 IIS 的 Windows 虚拟 机 的 。 一 旦 创建 了 自己 的 角色 ,就 
可 以 添加 特定 应 用 程序 的 代码 了 。 

Visual Studio 可 允许 用 户 设置 服务 配置 参数 ,例如 实例 数 、 虚 拟 机 容量 、 是 使 用 HTTP 
还 是 HTTPS, 以 及 诊断 报告 水 平等 。 通 常情 况 下 ,在 启动 阶段 , 它 可 以 帮助 用 户 在 本 地 进 
行 应 用 程序 代码 调试 。 与 在 Microsoft Azure 中 运行 应 用 程序 相 比 ,在 本 地 运行 应 用 程序 可 
能 需要 不 同 的 配置 设置 ,但 Visual Studio 可 允许 用 户 使 用 多 个 配置 文件 。 而 用 户 所 需要 做 
的 ,只 是 为 每 一 个 环境 选择 一 个 合适 的 配置 文件 。 

这 个 工具 包 还 包括 Microsoft Azure Compute Emulator, 这 个 工具 可 支持 查看 诊断 日 
志和 进行 存储 仿真 。 

如 果 Microsoft Azure 工具 中 缺乏 一 个 针对 发 布 用 户 的 应 用 程序 至 云 计 算 的 过 程 简 化 
功能 ,那么 这 个 工具 将 是 不 完整 的 。 这 个 发 布 应 用 程序 至 云 计算 的 功能 可 允许 指定 一 个 配 
置 与 环境 (如 生产 ) 以 及 一 些 先 进 的 功能 ,例如 启用 剖析 和 IntelliTrace, 后 者 是 一 个 收集 与 
程序 运行 相关 详细 事件 信息 的 调试 工具 , 它 允 许 开发 人 员 查 看 程序 在 执行 过 程 中 发 生 的 状 

2. 专 为 分 布 式 处 理 进行 设计 

当 开 发 和 部 署 代码 时 ,Visual Studio 的 Microsoft Azure 工具 是 比较 有 用 的 。 除 此 之 
外 ,用 户 应 当 注 意 ,这 些 代码 是 专门 为 云 计算 环境 而 设计 的 ,尤其 是 为 一 个 分 布 式 环境 设计 
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的 。 以 下 的 小 贴 士 可 有 助 于 防止 出 现 将 导致 糟糕 性 能 、 漫 长 调试 以 及 运行 时 分 析 的 潜在 
问题 。 

专门 为 云 计算 设计 的 分 布 式 应 用 程序 (或 者 其 他 的 网 络 应 用 程序 ) 的 一 个 基本 原则 就 
是 ,不 要 在 网 络 服务 器 上 存储 应 用 程序 的 状态 信息 。 确 保 在 网 络 服务 器 层 不 保存 状态 信息 
可 实现 更 具 灵 活性 的 应 用 程序 。 可 以 在 一 定数 量 的 服务 器 前 部 署 一 个 负载 平衡 器 而 无 须 中 
断 应 用 程序 的 运行 。 如 果 计 划 充 分 利用 Microsoft Azure 能 够 改变 所 部 属 服务 器 数量 的 功 
能 ,那么 这 一 点 是 特别 重要 的 。 这 一 配置 对 于 打 补 丁 升级 也 是 有 所 帮助 的 。 我 们 可 以 在 其 
他 服务 器 继续 运行 时 为 一 台 服 务 器 打 补 丁 升 级 ,这 样 一 来 就 能 够 确保 应 用 程序 的 可 用 性 。 

即便 是 在 分 布 式 应 用 程序 的 应 用 中 ,也 有 可 能 存在 严重 影响 性 能 的 瓶颈 问题 。 例 如 ,你 
的 应 用 程序 的 多 个 实例 有 可 能 会 同时 向 数据 库 发 出 查询 请 求 。 如 果 所 有 的 调用 请 求 是 同步 
进行 的 ,那么 就 有 可 能 消耗 完 一 台 服 务 器 中 的 所 有 可 用 线程 。C# 和 VB 两 种 编程 语言 都 支 
持 异 步调 用 ,这 一 功能 有 助 于 减少 出 现 阻 塞 资源 风险 的 可 能 性 。 

3. 为 最 佳 性 能 进行 规划 

在 云 计 算 中 维持 足够 性 能 表现 的 关键 就 是 ,一 方面 扩大 你 运行 的 服务 器 数量 , 另 一 方面 
分 割 你 的 数据 和 工作 负载 。 诸 如 无 状态 会 话 的 设计 功能 ,就 能 够 帮助 实现 数据 与 工作 负载 
的 分 割 和 运行 服务 器 数量 的 扩容 。 完 全 杜绝 (或 者 至 少 最 大 限度 地 减少 ) 跨 多 个 工作 负载 地 
使 用 全 局 数据 结构 将 有 助 于 降低 在 你 的 工作 流程 中 出 现 瓶 颈 问 题 的 风险 。 

如 果 你 将 把 一 个 SQL 服务 器 应 用 程序 迁 往 Microsoft Azure. IS A 3 jw 4 3E fih An fuf dox 
好 地 利用 不 同 云 计算 存储 类 型 的 优势 。 例 如 ,在 你 的 SQL 服务 器 数据 库 中 存储 二 进 制 大 对 
象 (BLOB) 数 据 结构 可 能 是 有 意义 的 ,而 在 Microsoft Azure 云 计 算 中 ,BLOB 存储 可 以 降低 
存储 成 本 且 无 须 对 代码 进行 显著 修改 。 如 果 你 使 用 的 是 高 度 非 归 一 化 的 数据 模型 ,上 且 未 利 
用 SQL 服务 器 的 关系 型 运行 的 优势 (例如 连接 和 过 滤 ) ,那么 表 存 储 有 可 能 是 你 为 你 的 应 用 
程序 选择 的 一 个 更 经 济 的 方法 。 





习题 


1. 什么 是 云 应 用 ? 
2. 百度 云 是 否 属于 云 应 用 ? 
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5.1 什么 是 大 数据 


大 数据 是 一 个 不 断 发 展 的 概念 ,可 以 指 任何 体 量 或 复杂 性 超出 常规 数据 处 理 方法 的 处 
理 能 力 的 数据 。 数 据 本 身 可 以 是 结构 化 、 半 结构 化 甚至 是 非 结构 化 的 , 随 着 物 联网 技术 与 可 
穿戴 设备 的 飞速 发 展 ,数据 规模 变 得 越 来 越 大 ,内 容 越 来 越 复 杂 , 更 新 速度 越 来 越 快 ,大 数据 
研究 和 应 用 已 成 为 产业 升级 与 新 产业 崛起 的 重要 推动 力量 。 

从 狭义 上 讲 , 大 数据 主要 是 指 处 理 海量 数据 的 关键 技术 及 其 在 各 个 领域 中 的 应 用 ,是 指 
从 各 种 组 织 形式 和 类 型 的 数据 中 发 气 有 价值 的 信息 的 能 力 。 一 方面 ,狭义 的 大 数据 反映 的 
是 数据 规模 之 大 ,以 至 于 无 法 在 一 定时 间 内 用 常规 数据 处 理 软 件 和 方法 对 其 内 容 进行 有 效 
的 抓 取 、 管 理 和 处 理 ; 另 一 方面 ,狭义 的 大 数据 主要 是 指 海量 数据 的 获取 、 存 储 、 管 理 ` 计 算 
分 析 、 控 气 与 应 用 的 全 新 技术 体系 。 

从 广义 上 讲 , 大 数据 包括 大 数据 技术 ,大 数据 工程 .大 数据 科学 和 大 数据 应 用 等 与 大 数 
据 相关 的 领域 。 大 数据 工程 是 指 大 数据 的 规划 、 建 设 . 运 营 、 管 理 的 系统 工程 ; 大 数据 科学 
主要 关注 大 数据 网 络 发 展 和 运营 过 程 中 发 现 和 验证 大 数据 的 规律 及 其 与 自然 和 社会 活动 之 
间 的 关系 。 


5.2 大 数据 的 特点 


学 术 界 已 经 总 结 了 大 数据 的 许多 特点 ,包括 体 量 巨 大 、 速 度 极 快 、 模 态 多 样 , 潜 在 价值 
大 等 。 
IBM 公司 使 用 3V 来 描述 大 数据 的 特点 。 
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(1) Volume( 体 量 )。 通 过 各 种 设备 产生 的 海量 数据 体 量 巨大 ,远大 于 目前 互联 网 上 的 
信息 流量 。 

(2) Variety( 多 样 )。 大 数据 类 型 繁多 ,在 编码 方式 、 数 据 格式 、 应 用 特征 等 多 个 方面 存 
在 差异 , 既 包含 传统 的 结构 化 数据 ,也 包含 类 似 于 XML、JSON 等 半 结 构 化 形式 和 更 多 的 非 
结构 化 数据 ; 既 包 含 传统 的 文本 数据 ,也 包含 更 多 的 图 片 .音频 和 视频 数据 。 

(3) Velocity( 速 率 ) 。 数 据 以 非常 高 的 速率 到 达 系统 内 部 ,这 就 要 求 处 理 数据 段 的 速度 
必须 非常 快 。 

后 来 ,IBM 公司 又 在 3V 的 基础 上 增加 了 Value( 价 值 ) 维 度 来 表述 大 数据 的 特点 , 即 大 
数据 的 数据 价值 密度 低 ,因此 需要 从 海量 原始 数据 中 进行 分 析 和 挖掘 ,从 形式 各 异 的 数据 源 
中 抽取 富有 价值 的 信息 。 

IDC 公司 则 更 侧重 于 从 技术 角度 的 考量 : 大 数据 处 理 技术 代表 了 新 一 代 的 技术 架构 ， 
这 种 架构 能 够 高 速 获取 和 处 理 数据 ,并 对 其 进行 分 析 和 深度 挖掘 ,总 结 出 具有 高 价值 的 
数据 。 

大 数据 的 “大 ”不 仅 是 指数 据 量 的 大 小 ,也 包含 大 数据 源 的 其 他 特征 ,如 不 断 增加 的 速度 
和 多 样 性 。 这 意味 着 大 数据 正 以 更 加 复杂 的 格式 从 不 同 的 数据 源 高 速 向 我 们 涌 来 。 

大 数据 有 一 些 区 别 于 传统 数据 源 的 重要 特征 ,不 是 所 有 的 大 数据 源 都 具备 这 些 特征 ,但 
是 大 多 数 大 数据 源 都 会 具备 其 中 的 一 些 特征 。 

大 数据 通常 是 由 机 器 自动 生成 的 ,并 不 涉及 人 工 参与 ,如 引擎 中 的 传感器 会 自动 生成 关 
于 周围 环境 的 数据 。 

大 数据 源 通 常设 计 得 并 不 友好 ,甚至 根本 没有 被 设计 过 ,如 社交 网 站 上 的 文本 信息 流 ， 
我 们 不 可 能 要 求 用 户 使 用 标准 的 语法 .语序 等 。 

因此 大 数据 很 难 从 直观 上 看 到 蕴藏 的 价值 大 小 ,所 以 创新 的 分 析 方 法 对 于 挖掘 大 数据 
中 的 价值 尤为 重要 ,更 是 迫在眉睫 。 


5.3 大 数据 发 展 


大 数据 技术 是 一 种 新 一 代 技 术 和 构架 , 它 成 本 较 低 ,以 快速 的 采集 、 处 理 和 分 析 技 术 从 
各 种 超大 规模 的 数据 中 提取 价值 。 大 数据 技术 不 断 涌现 和 发 展 ,让 我 们 处 理 海量 数据 更 加 
容易 .便宜 和 迅速 ,成 为 利用 数据 的 好 助手 ,甚至 可 以 改变 许多 行业 的 商业 模式 。 大 数据 技 
术 的 发 展 可 以 分 为 以 下 六 大 方向 。 

(1) 大 数据 采集 与 预 处 理 方向 。 这 个 方向 最 常见 的 问题 是 数据 的 多 源 和 多 样 性 ,导致 
数据 的 质量 存在 差异 ,严重 影响 到 数据 的 可 用 性 。 针 对 这 些 问题 ,目前 很 多 公司 已 经 推出 了 
多 种 数据 清洗 和 质量 控制 工具 (如 IBM 公司 的 Data Stage). 

(2) 大 数据 存储 与 管理 方向 。 这 个 方向 最 常见 的 挑战 是 存储 规模 大 ,存储 管理 复杂 , 需 
要 兼顾 结构 化 \ 非 结构 化 和 半 结 构 化 的 数据 。 分 布 式 文件 系统 和 分 布 式 数 据 库 相关 技术 的 
发 展 正在 有 效 地 解决 这 些 方面 的 问题 。 在 大 数据 存储 和 管理 方向 ,尤其 值得 我 们 关注 的 是 
大 数据 索引 和 查询 技术 、 实 时 及 流 式 大 数据 存储 与 处 理 的 发 展 。 

(3) 大 数据 计算 模式 方向 。 由 于 大 数据 处 理 多 样 性 的 需求 ,目前 出 现 了 多 种 典型 的 计 
算 模式 ,包括 大 数据 查询 分 析 计 算 ( 如 Hive) 、 批 处 理 计算 (如 Hadoop MapReduce) 、 流 式 计 








算 ( 如 Storm) .迭代 计算 (如 HaLoop)、 图 计算 (如 PregeD 和 内 存 计 算 ( 如 HANA) ,这 些 计 
算 模式 的 混合 计算 方法 将 成 为 满足 多 样 性 大 数据 处 理 和 应 用 需求 的 有 效 手 段 。 

(4) 大 数据 分 析 与 挖掘 方向 。 在 数据 量 迅 速 增加 的 同时 ,还 要 进行 深度 的 数据 分 析 和 
挖掘 ,并 且 对 自动 化 分 析 要 求 越 来 越 高 。 越 来 越 多 的 大 数据 分 析 工 具 和 产品 应 运 而 生 , 如 用 
于 大 数据 挖掘 的 RHadoop 版 .基于 MapReduce 开发 的 数据 挖掘 算法 等 。 

(5) 大 数据 可 视 化 分 析 方 向 。 通 过 可 视 化 方式 来 帮助 人 们 探索 和 解释 复杂 的 数据 ,有 
利于 决策 者 挖掘 数据 的 商业 价值 ,进而 有 助 于 大 数据 的 发 展 。 很 多 公司 也 在 开展 相应 的 研 
究 , 试 图 把 可 视 化 引入 其 不 同 的 数据 分 析 和 展示 的 产品 中 ,各 种 可 能 相关 的 商品 将 会 不 断 出 
现 。 可 视 化 工具 Tableau 的 成 功 上 市 反映 了 大 数据 可 视 化 的 需求 。 

(6) 大 数据 安全 方向 。 当 我 们 在 用 大 数据 分 析 和 数据 挖掘 获取 商业 价值 的 时 候 , 黑 客 
很 可 能 在 向 我 们 攻击 ,收集 有 用 的 信息 。 因 此 ,大 数据 的 安全 一 直 是 企业 和 学 术 界 非常 关注 
的 研究 方向 。 文 件 访 问 控制 权限 ACL、 基 础 设备 加 密 、 匿 名 化 保护 技术 和 加 密 保护 等 技术 
正在 最 大 程度 地 保护 数据 安全 。 


5.4 大 数据 应 用 


大 数据 在 各 行 各 业 的 应 用 越 来 越 频繁 与 深入 , 接 下 来 将 以 几 个 具体 的 例子 讲述 大 数据 
在 行业 中 的 应 用 。 

(1) 梅 西 百货 的 实时 定价 机 制 。 根 据 需 求 和 库存 的 情况 ,该 公司 基于 SAS 的 系统 对 多 
3k 7300 万 种 货品 进行 实时 调价 。 

(2) Tipp24 AG 针对 欧洲 博彩 业 构 建 的 下 注 和 预测 平台 。 该 公司 用 KXEN 软件 来 分 
析 数 十 亿 计 的 交易 以 及 客户 的 特性 ,然后 通过 预测 模型 对 特定 用 户 进行 动态 的 营销 活动 。 
这 项 举措 减少 了 90% 的 预测 模型 构建 时 间 。 

(3) 沃尔玛 的 搜索 。 这 家 零售 业 寞 头 为 其 网 站 Walmart. com 自行 设计 了 最 新 的 搜索 
引擎 Polaris, 利 用 语义 数据 进行 文本 分 析 、 机 器 学 习 和 同义词 挖掘 等 。 根 据 沃 尔 玛 的 说 法 ， 
语义 搜索 技术 的 运用 使 得 在 线 购物 的 完成 率 提升 了 10%~15%。 

(4) 快餐 业 的 视频 分 析 。 其 主要 通过 视频 分 析 等 候 队 列 的 长 度 ,然后 自动 变化 电子 菜 
单 显 示 的 内 容 。 如 果 队 列 较 长 , 则 显示 可 以 快速 供给 的 食物 ; 如 果 队 列 较 短 , 则 显示 利润 较 
高 但 准备 时 间 相对 长 的 食品 。 

(5) PredPol 和 预测 犯罪 。PredPol 公司 通过 与 洛杉矶 和 圣 克 和 鲁 斯 的 警方 以 及 一 群 研 
究 人 员 合作 ,基于 地 震 预测 算法 的 变 体 和 犯罪 数据 来 预测 犯罪 发 生 的 概率 ,可 以 精确 到 500 
平方 英尺 的 范围 内 。 在 洛杉矶 运用 该 算法 的 地 区 ,盗窃 罪 和 暴力 犯罪 分 别 下 降 了 3376 
和 21%。 

(6) Tesco PLC( 特 易 购 ) 和 运营 效率 。 这 家 连锁 超市 在 其 数据 仓库 中 收集 了 700 万 部 
冰箱 的 数据 。 通 过 对 这 些 数 据 的 分 析 进 行 更 全 面 的 监控 ,并 进行 主动 的 维修 以 降低 整体 
能 耗 。 

(7) American Express( 美 国运 通 ,AmEx) 和 商业 智能 。 以 往 ,AmEx 只 能 实现 事后 诸 
葛 式 的 报告 和 滞后 的 预测 。 专 家 Laney 认为 “传统 的 BI 已 经 无 法 满足 业务 发 展 的 需要 ”。 
于 是 ,AmEx 开始 构建 真正 能 够 预测 忠诚 度 的 模型 ,基于 历史 交易 数据 ,用 115 个 变量 进行 
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分 析 预 测 。 该 公司 表示 ,通过 预测 ,对 于 澳大利亚 将 于 此 后 的 4 个 月 中 流失 的 客户 已 经 能 够 
识别 出 2496, 


习题 


- 从 广义 与 狭义 两 方面 描述 你 理解 的 大 数据 。 
. 简要 陈述 大 数据 的 4V 特点 。 

. 简要 描述 大 数据 发 展 的 六 大 方向 。 

. 结合 现实 陈述 两 个 大 数据 的 应 用 场景 。 
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这 里 讲 的 系统 架构 设计 指 的 是 企业 大 数据 系统 设计 。 深 处 时 代 变 革 中 的 企业 又 一 次 面 
临 大 数据 这 一 信息 技术 革命 带 来 的 冲击 ,企业 要 么 积极 拥抱 变化 ,提前 做 出 变革 ; 要 么 静观 
其 变 , 择 机 而 动 。 不 管 选择 哪 种 方式 ,都 是 继 互联 网 之 后 对 企业 的 又 一 次 智慧 的 考验 。 

企业 信息 化 涉及 企业 的 各 个 方面 ,是 一 项 复杂 的 系统 工程 ,一 般 要 经 历 从 初始 到 不 断 成 
熟 的 过 程 。 对 于 数据 管理 阶段 和 成 熟 阶段 ,美国 管理 信息 系统 专家 诺 兰 发 表 了 著名 的 企业 
信息 系统 进化 的 阶段 模型 , 即 诺 兰 模 型 。 诺 兰 认 为 ,在 数据 管理 阶段 ,企业 高 层 已 经 意识 到 
了 企业 信息 战略 的 重要 性 ,并 开始 着 手 企业 信息 资源 的 统一 规划 ; 在 数据 成 熟 阶段 ,企业 和 
数据 是 同步 发 展 的 ,数据 是 企业 面貌 的 镜像 ,企业 可 以 依据 数据 做 出 发 展 决策 。 





6.1 总 体 架构 概述 


6.1.1 总 体 架构 设计 原则 


企业 级 大 数据 应 用 框架 需要 满足 业务 的 需求 : 一 是 要 求 能 够 满足 基于 数据 容量 大 、 数 
据 类 型 多 ,数据 流通 快 的 大 数据 基本 处 理 需求 ,能 够 支持 大 数据 的 采集 、 存 储 、 处 理 和 分 析 ; 
二 是 要 能 够 满足 企业 级 应 用 在 可 用 性 、 可 靠 性 、 可 扩展 性 、 容 错 性 、 安 全 性 和 保护 隐私 等 方面 
的 基本 准则 ; 三 是 要 能 够 满足 用 原始 技术 和 格式 来 实现 的 数据 分 析 的 基本 要 求 。 

1. 满足 大 数据 的 V3 要 求 

1) 大 数据 容量 的 加 载 、 处 理 和 分 析 

要 求 大 数据 应 用 平台 经 过 扩展 可 以 支持 GB、TB、PB、EB 甚至 ZB 规模 的 数据 集 。 

2) 各 种 类 型 数据 的 加 载 .处 理 和 分 析 

支持 各 种 各 样 的 数据 类 型 .支持 处 理 交 易 数 据 、 各 种 非 结构 化 数据 、 机 器 数据 以 及 其 他 
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新 数据 结构 ; 支持 极端 的 混合 工作 负载 ,包括 数 以 千 计 的 地 理 上 分 布 的 在 线 用 户 和 程序 ,这 
些 用 户 和 程序 执行 各 种 各 样 的 请 求 , 范 围 从 临时 性 的 请 求 到 战略 分 析 的 请 求 , 同 时 以 批量 或 
流 的 方式 加 载 数据 。 

3) 大 数据 的 处 理 速度 

在 很 高 速度 (GB/s) 的 加 载 过 程 中 集成 来 自 多 个 来 源 的 数据 ; 以 至 少 每 秒 千 兆 字 节 的 
速度 高 速 加 载 数 据 ,随时 进行 分 析 ; 以 满 负荷 速度 就 地 更 新 数据 ; 不 需要 预先 将 维 表 与 事 
实 表 群 集 即 可 将 十 亿 行 的 维 表 加 入 万 亿 行 的 事实 表 ; 在 传人 的 加 载 数据 上 实时 执行 某 些 
“ 流 ” 分 析 查 询 。 

2. 满足 企业 级 应 用 的 要 求 

1) 高 可 扩展 性 

要 求 平台 符合 企业 未 来 业务 发 展 要 求 以 及 对 新 业务 的 响应 ,能 够 支持 大 规模 数据 计算 
的 节点 可 扩展 ,能 适应 将 来 数据 结构 的 变化 数据 容量 增长 .用 户 的 增加 、 查 询 要 求 和 服务 内 
容 的 变化 ,要 求 大 数据 架构 具备 支持 调度 和 执行 数 百 上 千 节 点 的 负载 工作 流 。 

2) 高 可 用 性 

要 求 平台 能 够 具备 实时 计算 环境 所 具备 的 高 可 用 性 ,在 单 点 故障 的 情况 下 能 够 保证 应 
用 的 可 用 性 ,具备 处 理 节点 故障 时 的 故障 转 义 和 流程 继续 的 能 力 。 

3) 安全 性 和 保护 隐私 

系统 在 数据 采集 ,存储 ,分 析 架 构 上 保证 数据 网络 、 存 储 和 计算 的 安全 性 ,具备 保护 个 
人 和 企业 隐私 的 措施 。 

4) 开放 性 

要 求 平台 能 够 支持 计算 和 存储 数 以 千 计 的 、 地 理 位 置 可 能 不 同 的 、 可 能 异 构 的 计算 节 
点 ,能 够 识别 和 整合 不 同 技术 和 不 同 厂商 开发 的 工具 和 应 用 ,能 够 支持 移动 应 用 、 互 联网 应 
用 、 社 交 网 络 、 云 计算 、 物 联网 、 虚 拟 化 网络 、 存 储 等 多 种 计算 机 设备 计算 协议 和 计算 架构 。 

5) 易 用 性 

系统 功能 操作 是 否 易 用 ,能 否 满足 大 多 数 企 业 业 务 ,管理 和 技术 人 员 的 操作 习惯 ; 平台 
具有 可 编程 性 ,能 够 支持 不 同 编程 工具 和 语言 的 集成 ,具备 集成 编译 环境 ; 能 否 在 处 理 请 求 
内 嵌入 任意 复杂 的 用 户 定义 函数 (UDF) ,以 各 种 行业 标准 过 程 语 言 执行 UDF ,组 合 大 部 分 
或 全 部 使 用 案例 的 大 量 可 复 用 UDF 库 ,在 几 分 钟 内 对 PB 级 别 大 小 的 数据 集 执行 UDF* 关 
系 扫描 ”。 

3. 满足 对 原始 格式 数据 进行 分 析 的 要 求 

系统 具备 对 复杂 的 原始 格式 数据 进行 整合 分 析 的 能 力 , 如 对 文本 数据 \ 数 学 数据 ,统计 
数据 \ 金 融 数据 .图像 数据 、 声 音 数据 ,地 理 空间 数据 、 时 序数 据 、 机 器 数据 等 进行 分 析 的 
能 力 。 


6.1.2 总 体 架 构 参 考 模型 


基于 Apache 开源 技术 的 大 数据 平台 总 体 架构 参考 模型 如 图 6-1 所 示 , 大 数据 的 产生 、 
组 织 和 处 理 主要 是 通过 分 布 式 分 拣 处 理 系统 来 实现 的 ,主流 的 技术 是 Hadoop 十 
MapReduce, 其 中 ,Hadoop 的 分 布 式 文件 处 理 系统 (CHDFS) 作 为 大 数据 存储 的 框架 ,分 布 式 
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计算 框架 MapReduce 作为 大 数据 处 理 的 框架 。 
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6-1 大 数据 应 用 平台 的 总 体 架构 参考 模型 
1. 大 数据 基础 


这 一 部 分 提供 了 大 数据 框架 的 基础 ,包括 序列 化 、 分 布 式 协同 等 基础 服务 ,构成 了 上 层 
应 用 的 基础 。 

CD Avro。 新 的 数据 序列 化 与 传输 工具 ,将 逐步 取代 Hadoop 原 有 的 IPC 机 制 。 

(2) ZooKeeper。 分 布 式 锁 设 施 , 它 是 一 个 分 布 式 应 用 程序 的 集中 配置 管理 器 ,用 户 分 
布 式 应 用 的 高 性 能 协同 服务 ,由 Facebook 贡献 ,也 可 以 独立 于 Hadoop 使 用 。 

2. 大 数据 存储 

HDFS 是 Hadoop 分 布 式 文件 系统 ,前 面 已 经 介绍 过 ,HDFS 运行 于 大 规模 集群 之 上 ， 
集群 使 用 廉价 的 普通 机 器 构建 ,整个 文件 系统 采用 的 是 元 数据 集中 管理 与 数据 块 分 散 存储 

相 结 合 的 模式 ,并 通过 数据 的 完 余 复制 来 实现 高 度 容 错 。 分 布 式 文件 处 理 系统 架构 在 通用 

的 服务 器 .操作 系统 或 虚拟 机 上 。 

3. 大 数据 处 理 

MapReduce 是 分 布 式 并 行 计算 框架 ,是 基于 Map( 可 理解 为 “任务 分 解 ”) 和 Reduce( 可 
理解 为 “结果 综合 ”) 的 函数 。 基 于 MapReduce 写 出 的 应 用 程序 能 够 运行 在 由 上 千 个 普通 机 
器 组 成 的 大 型 集群 上 ,并 以 一 种 可 靠 容错 的 方式 并 行 处 理 TB 级 别 以 上 的 数据 集 。Mapper 
和 Reducer 的 主 代码 可 以 用 很 多 语言 编写 , Hadoop 的 原生 语言 是 Java, 但 是 Hadoop 公开 
API 用 于 以 Ruby 和 Python 等 其 他 语言 编写 代码 ,还 提供 了 C++ 接口 。 在 最 底层 进行 
MapReduce 编程 显然 提供 了 最 大 的 潜力 ,但 这 种 编程 层次 非常 像 汇编 语言 的 编程 。 

4. 大 数据 访问 和 分 析 

在 Hadoop 十 MapReduce 之 上 架构 的 是 基础 平台 服务 ,在 基础 平台 之 上 是 大 数据 访问 
和 分 析 的 应 用 服务 。 大 数据 访问 和 分 析 的 框架 实现 对 传统 关系 型 数据 库 和 Hadoop 的 访 
问 ,主流 技术 包括 Pig、Hive、Sqoop、Mahout 等 。 
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(D Pig. Pig 是 基于 Hadoop 的 并 行 计算 高 级 编程 语言 , 它 提供 一 种 类 似 于 SQL 的 数 
据 分 析 高 级 文本 语言 , 称 为 Pig Latin, 该 语言 的 编译 器 会 把 类 SQL 的 数据 分 析 请 求 转换 为 
一 系列 经 过 优化 处 理 的 MapReduce 运算 。Pig 支持 的 常用 数据 分 析 主 要 有 分 组 .过 滤 、 合 
并 等 ,Pig 为 创建 Apache MapReduce 应 用 程序 提供 了 一 款 相 对 简单 的 工具 , 它 有 效 简化 了 
编写 ,理解 和 维护 程序 的 工作 ,还 优化 了 任务 自动 执行 的 功能 ,并 支持 使 用 自 定义 功能 进行 
接口 扩展 。 

(2) Hive, Hive 是 由 Facebook 贡献 的 数据 仓库 工具 ,是 MapReduce 实现 的 用 来 查询 
分 析 结 构 化 数据 的 中 间 件 。Hive 的 类 SQL 查询 语言 Hive SQL 可 以 查询 和 分 析 储 存 
在 Hadoop 中 的 大 规模 数据 。 

(3) Sqoop。Sqoop 由 Cloudera 开发 ,是 一 种 用 于 在 Hadoop 与 传统 数据 库 间 进 行 数据 
传递 的 开源 工具 ,允许 将 数据 从 关系 源 导入 HDFS 以 及 从 HDFS 导出 到 关系 型 数据 库 。 
MapReduce 等 函数 都 可 以 使 用 由 Sqoop 导入 HDFS 中 的 数据 。 

(4) Mahout, Apache Mahout 项 目 提供 分 布 式 机 器 学 习 和 数据 挖掘 库 。 

(5) Hama。 基 于 BSP 的 超大 规模 科学 计算 框架 。 





6.2 运行 架构 概述 


运行 架构 设计 着 重 考 虑 的 是 企业 大 数据 系统 运行 期 的 质量 属性 ,比如 性 能 、 可 伸缩 性 和 
持续 可 用 性 。 大 规模 用 户 并 发 和 海量 数据 处 理 是 企业 大 数据 系统 在 运行 架构 设计 时 重点 要 
解决 的 问题 。 


6.2.1 物理 架构 


企业 大 数据 系统 的 各 层次 系统 最 终 要 部 署 到 主机 节点 中 ,这 些 节 点 通过 网 络 连接 成 为 
一 个 整体 ,为 企业 的 大 数据 应 用 提供 物理 支撑 。 如 前 文 所 述 ,企业 大 数据 系统 由 多 个 逻辑 层 
组 成 ,多 个 迎 辑 层 可 以 映射 到 一 个 物理 节点 上 ,也 可 以 映射 到 多 个 物理 节点 上 。 

在 映射 时 需要 考虑 三 个 方面 的 问题 : 一 是 是 否 容易 识别 , 即 通过 物理 节点 的 IP 地 址 就 
能 知道 这 个 节点 的 作用 域 ,通过 多 个 物理 节点 的 IP 地 址 就 能 知道 这 些 节 点 是 否 为 一 个 集群 
的 ; 二 是 是 否 足够 集约 ,对 于 负载 轻 的 系统 ,如 果 每 一 个 软件 系统 单独 部 署 在 一 个 物理 节 
点 ,会 造成 物理 节点 的 浪费 ; 三 是 是 否 能 够 同 构 , 对 于 物理 节点 最 好 能 够 统一 配置 ,不 仅 便 
于 统一 管理 ,而 且 可 以 实现 重用 ,只 需 一 次 配置 ,多 个 物理 节点 同 构 复 制 , 就 可 以 实现 动态 
扩展 。 

Google 和 Facebook 公司 都 采用 大 量 的 廉价 商用 硬件 来 搭建 自己 的 分 布 式 系 统 , 基 于 
廉价 商用 硬件 搭建 的 分 布 式 系统 在 运行 效率 、 可 靠 性 .可 扩展 性 方面 都 被 证 明 能 够 经 得 起 大 
规模 、 高 并 发 ,海量 数据 的 检验 。 


6.2.2 集成 架构 


企业 大 数据 系统 由 多 个 系统 集成 而 成 ,每 个 系统 都 提供 了 多 种 协议 和 接口 ,以 便 企业 大 
数据 系统 的 内 部 系统 间 集 成 和 外 部 系统 与 大 数据 系统 的 集成 。 
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企业 大 数据 系统 的 集成 可 以 分 为 总 体 集成 和 专项 集成 。 总 体 集成 是 指 各 组 成 系统 间 的 
集成 ,通过 总 体 集成 可 以 构成 高 效 、 可 靠 、 安 全 运行 的 企业 大 数据 系统 。 若 企业 大 数据 系统 
之 外 的 某 个 应 用 系统 或 大 数据 系统 之 内 的 某 个 应 用 系统 只 想 与 存储 系统 、 调 度 系统 等 进行 
集成 ,那么 可 通过 调用 这 些 系统 开放 的 接口 来 实现 ,这 种 集成 方式 就 是 专项 集成 。 

在 实现 总 体 集成 时 ,应 用 功能 集成 的 方法 是 同意 以 代理 系统 为 核心 ,各 应 用 系统 的 功能 
以 Web Service 方 式 注册 在 统一 代理 系统 中 。 统 一 代理 系统 既 可 以 作为 外 部 系统 与 应 用 系 
统 的 中 介 ,为 外 部 系统 提供 功能 服务 ,同时 也 可 以 为 内 部 系统 间 功 能 的 相互 调用 提供 服务 。 

应 用 系统 将 Web Service 的 服务 注册 到 统一 应 用 代理 服务 器 ,由 统一 代理 应 用 系统 将 
其 转化 成 统一 的 对 外 Web Server。 应 用 系统 门户 等 内 外 部 系统 通过 调用 统一 的 对 外 Web 
Service 来 向 统一 代理 系统 发 出 服务 请 求 。 


6.2.3 安全 架构 


由 于 企业 大 数据 系统 的 数据 资源 和 计算 资源 广泛 地 分 布 在 多 个 节点 上 ,所 以 用 户 的 身 
份 ` 权 限 等 安全 ,数据 资源 的 存储 、 传 输 、 访 问 等 安全 ,以 及 计算 资源 的 访问 监控、 调整、 恢复 
等 安全 ,都 是 企业 大 数据 系统 在 进行 安全 架构 设计 时 需要 考虑 的 问题 。 

一 般 来 讲 , 企 业 大 数据 的 安全 架构 由 针对 三 层 的 安全 设计 构成 ,这 三 层 分 别 是 用 户 层 、 
应 用 层 和 数据 层 。 针 对 每 一 层 的 关键 行为 加 入 安全 因素 的 设计 ,以 确保 系统 的 整体 安全 。 

用 户 层 的 安全 主要 是 指 用 户 身 份 安全 和 用 户 权限 安全 ,主要 由 统一 代理 系统 来 负责 。 
当 用 户 在 登录 时 和 登录 后 访问 应 用 资源 .数据 资源 时 ,统一 代理 系统 将 对 用 户 身份 进行 认 
证 ,对 用 户 权限 进行 检查 。 

用 户 权限 也 可 以 直接 将 原 有 的 用 户 权 限 系统 集成 到 大 数据 系统 中 ,实现 对 用 户 权 限 的 
管理 ,但 需要 对 资源 目录 进行 改造 。 分 布 式 文件 的 权限 管理 粒度 到 文件 级 ,所 以 在 资源 目录 
中 对 用 户 的 文件 授权 也 只 能 到 文件 级 。 分 布 式 数据 的 权限 管理 粒度 只 能 到 行 级 和 列 级 ,而 
不 像 传 统 数据 库 可 以 到 字段 表 , 所 以 在 资源 目录 中 对 用 户 的 数据 授权 也 要 做 出 相应 的 改变 。 

应 用 层 安 全 主要 在 于 能 否 保证 应 用 安全 、 可 靠 地 运行 。 应 用 层 安 全 关注 的 行为 包括 分 
布 式 任务 提交 、 进 度 和 状态 监管 .运行 任务 的 调整 ,任务 的 恢复 运行 日志 记 录 和 资源 权限 
检查 。 

Hadoop 和 HBase 都 提供 了 相应 的 机 制 ,以 确保 应 用 任务 的 安全 运行 。Hadoop 系统 通 
过 JobTracker 来 进行 MapReduce 任务 的 分 配 、 调 度 和 调整 ,HBase 系统 的 HMaster €W 
点 和 HRegionServer 为 了 解决 数据 库 中 “ 脏 读 ”和 “ 脏 写 ” 的 问题 会 采用 ZooKeeper 的 锁 
服务 。 

数据 层 安 全 重点 放 在 数据 是 否 会 丢失 传送 过 程 是 否 安全 ,敏感 数据 是 否 有 加 密 、 数 据 
的 完整 性 是 否 被 破坏 4 个 方面 。 

对 于 HDFS 而 言 ,每 一 个 文件 的 数据 库 都 采用 了 多 副本 机 制 , 并 将 这 些 副本 都 保存 在 
不 同 的 节点 上 。 当 某 个 节点 的 副本 失效 时 ,HDFS 还 会 在 一 个 新 的 节点 上 复制 一 个 副本 ,以 
确保 副本 数量 与 设 定 要 求 使 用 一 致 。 在 文件 的 完整 性 上 ,HDFS 对 每 一 个 块 都 采用 CRC32 
的 校 验方 式 来 确保 数据 的 完整 性 。 同 样 ,对 于 分 布 式 数据 库 HBase, 它 提供 了 类 似 的 分 布 式 
数据 库 安全 机 制 来 确保 数据 不 丢失 。 

为 了 保障 在 网 络 上 的 传输 安全 ,利用 数据 加 密 技术 可 在 一 定 程度 上 确保 数据 在 网 络 传 
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输 过 程 中 不 会 被 截取 或 窍 听 。SSL(Secure Socket Layer) 是 为 网 络 通信 提供 安全 及 数据 完 
整 性 保障 的 一 种 安全 协议 , 它 已 被 广泛 地 应 用 于 Web 浏览 器 与 服务 器 之 间 的 身份 认证 和 加 密 
传输 方面 。HDFS 提供 有 相应 的 HTTPS 方式 的 文件 读 / 写 接口 ,确保 数据 传输 过 程 的 安全 。 


6.3 主流 大 数据 系统 厂商 


如 今 , 越 来 越 多 的 企业 和 大 型 机 构 在 寻求 不 断 发 展 的 大 数据 问题 时 ,都 倾向 于 使 用 开源 
软件 基础 架构 Hadoop 的 服务 。 因 此 许多 公司 推出 了 各 自 版 本 的 Hadoop ,也 有 一 些 公司 围 
绕 Hadoop 开发 产品 。 本 章 将 以 举例 主流 厂商 解决 方案 的 方式 呈现 不 同 厂商 的 处 理 异 同 。 


6.3.1 Cloudera 


Cloudera 是 一 家 专业 从 事 基 于 Apache Hadoop 的 数据 管理 软件 销售 和 服务 的 公司 , 它 
发 布 的 实时 查询 开源 项 目 Impala 比 基 于 MapReduce 的 Hive SQL 的 查询 速度 提升 了 3 一 
90 fft, Impala 是 Google Dremel 的 模仿 ,但 在 SQL 功能 上 更 胜 一 筹 ,而 且 使 用 简单 .灵活 。 

Cloudera Impala 对 存储 在 Apache Hadoop HDFS, HBase 的 数据 提供 直接 查询 互动 的 
SQL, BEAT LAR Hive 使 用 相同 的 统一 存储 平台 ,Impala 也 使 用 相同 的 元 数据 、SQL 语法 
(Hive SQL) ,ODBC 驱动 程序 和 用 户 界面 (Hue Beeswax). Impala 还 提供 了 一 个 面向 批量 
或 实时 查询 的 统一 平台 。 

Flume 是 Cloudera 提供 的 一 个 高 可 用 性 、 高 可 靠 性 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传 
输 的 系统 , 它 支持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ; 同时 ,Flume 提供 对 
数据 进行 简单 处 理 并 写 到 各 种 数据 接收 方 (可 定制 ) 的 能 力 。 

Flume 提供 了 从 console( 控 制 台 )、RPC(Thrift-RPC)、text( 文 件 )、tail UNIX tail), 
syslog(syslog 日 志 系 统 , 支 持 TCP 和 UDP 两 种 模式 )、exec( 命 令 执 行 ) 等 数据 源 上 收集 数 
据 的 能 力 。 

Flume 采用 了 多 Master 的 方式 。 为 了 保证 配置 数据 的 一 致 性 ,其 引入 了 ZooKeeper. 
用 于 保存 配置 数据 ,ZooKeeper 本 身 可 保证 配置 数据 的 一 致 性 和 高 可 用 。 另 外 ,在 配置 数据 
发 生变 化 时 ,ZooKeeper 可 以 通知 Flume 的 Master 节点 。Flume Master 间 使 用 Gossip 协 
议 对 数据 进行 同步 。 


6.3.2 Hortonworks 


Hortonworks 的 开放 式 互联 平台 能 帮助 企业 管理 所 拥有 的 数据 (动态 数据 以 及 静态 数 
据 ), 为 用 户 组 织 启用 可 操作 情报 。 

HDP(Hortonworks Data Platform) 是 一 款 基于 Apache Hadoop 的 开源 数据 平台 ,提供 
大 数据 云 存 储 、 大 数据 处 理 和 分 析 等 服务 。 该 平台 专门 用 来 应 对 多 来 源 和 多 格式 的 数据 ,并 
使 其 处 理 起 来 能 变 得 更 加 简单 ,更 有 成 本 效益 。 

HDP 还 提供 了 一 个 开放 、 稳 定 和 高 度 可 扩展 的 平台 ,使 其 更 容易 地 集成 Apache 
Hadoop 的 数据 流 业 务 与 现 有 的 数据 架构 。 该 平台 包括 各 种 Apache Hadoop 项 目 以 及 
Hadoop 分 布 式 文件 系统 (HDFS)、MapReduce、Pig、Hive、HBase、ZooKeeper 和 其 他 各 种 组 
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件 , 使 Hadoop 的 平台 更 易于 管理 ,更 加 具有 开放 性 以 及 可 扩展 性 。 
6.3.3 Amazon 


Amazon 公司 的 AWS 本 身 就 是 最 完整 的 大 数据 平台 ,Amazon Web Services 提供 了 一 
系列 广泛 的 服务 ,可 以 快速 ,轻松 地 构建 和 部 署 大 数据 分 析 应 用 程序 。 借 助 AWS 可 以 迅速 
扩展 几乎 任何 大 数据 应 用 程序 ,其 中 包括 数据 仓库 、 点 击 流 分 析 、 欺 诈 侦 测 、 推 荐 引擎 事件 
驱动 ETL, 无 服务 器 计算 和 物 联网 处 理 等 应 用 程序 。 

Amazon EMR 是 一 种 Web 服务 , 旨 在 实现 轻松 快速 并 经 济 高 效 地 处 理 大 量 的 数据 。 

Amazon EMR 提供 托管 的 Hadoop 框架 ,可 以 在 多 个 支持 动态 扩展 的 Amazon EC2 实 
例 之 间 分 发 和 处 理 大 量 数据 。 这 里 的 Hadoop 也 可 以 蔡 换 为 其 他 常用 的 分 发 框架 ,例如 
Spark 或 Presto。 同 时 框架 中 的 文件 系统 可 以 使 用 AWS 数据 服务 代替 ,例如 Amazon S3 
和 Amazon DynamoDB, 用 于 进行 数据 交换 。Amazon EMR 能 够 安全 、 可 靠 地 处 理 大 数据 
使 用 案例 ,包括 日 志 分 析 、Web 索引 、 数 据 仓库 、 机 器 学 习 、 财 务 分 析 等 ,还 原生 支持 了 全 文 
索引 ElasticSearch 。 


6.3.4 Google 


Google 公司 作为 大 数据 研究 的 引领 者 ,为 大 数据 的 研究 和 应 用 提供 了 大 量 的 论文 和 实 
现 。 其 中 ,Google 文件 系统 (Google File System,GFS) 作 为 Google 大 数据 存储 与 处 理 的 基 
石 ,其 开源 实现 HDFS 也 是 Hadoop 的 关键 组 件 。GFS 采用 大 量 的 低 可 靠 性 PC 构成 集群 
系统 的 思想 也 为 后 来 的 大 数据 系统 所 继承 。GFS 采用 “ 主 控 ”服务 器 ,Chunk 服务 器 与 客户 
端的 架构 ,实现 了 分 布 式 存 储 对 应 用 开发 者 的 透明 化 ,使 其 类 似 于 本 地 的 文件 系统 ,这 一 机 
制 也 广泛 被 各 种 分 布 式 文件 系统 所 采用 。 

不 止 如 此 ,Google 提出 的 MapReduce 计算 框架 在 很 多 大 数据 领域 得 到 了 非常 广泛 的 
应 用 ; Google 研发 的 针对 分 布 式 系统 协调 管理 的 粗 粒 度 锁 服 务 Chubby 实现 了 一 个 实例 对 
上 万 台 机 器 的 协同 管理 ; Google 针对 微服 务 架构 提出 的 GRC 远程 调用 框架 实现 了 分 布 式 
系统 对 不 同 语言 和 框架 的 兼容 ,让 新 的 编程 模型 一 一 微服 务 架构 的 实际 应 用 成 为 现实 。 

可 以 说 ,Google 在 大 数据 领域 拥有 最 多 的 成 熟 解 决 方案 ,也 对 大 数据 技术 的 发 展 起 到 
了 非常 重要 的 推动 作用 。 


6.3.5 微软 


微软 公司 推出 的 商业 数据 分 析 系统 Microsoft Analytics Platform System 能 够 通过 其 
扩充 的 大 规模 平行 处 理 整 合式 系统 支持 混合 格式 的 数据 仓库 , 借 此 适应 数据 仓库 环境 不 断 
发 展 的 需求 。 它 能 够 运用 Microsoft PolyBase 和 从 SQL Server 以 来 积累 的 海量 数据 处 理 
技术 ,在 关系 式 和 非 关 系 式 数据 库 中 进行 查询 。 

此 外 ,微软 还 提供 了 基于 Hadoop 的 分 布 式 解决 方案 Microsoft Azure, 其 中 最 值得 注意 
的 是 “云端 Hadoop” 一 一 HDInsight, 它 提供 了 一 系列 全 面 的 Apache 大 数据 项 目的 托管 服 
务 。Azure HDInsight 使 用 Hortonworks Data Platform (HDP) 分 布 式 Hadoop. 
HDInsight 在 云 上 部 署 Hadoop 集群 ,并 提供 管理 服务 和 一 个 处 理 、 分 析 以 及 报告 大 数据 的 
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高 稳定 性 和 可 用 性 框架 。HDInsight 同时 还 支持 Apache 的 Storm 平台 ,以 提供 即时 监控 和 
串 流 数据 分 析 。 


6.3.6 阿里 云 数 加 平台 


数 加 是 阿里 云 为 企业 大 数据 实施 提供 的 一 套 完整 的 一 站 式 大 数据 解决 方案 ,覆盖 了 企 
业 数 仓 .商业 智能 、 机 器 学 习 、 数 据 可 视 化 等 领域 ,助力 企业 在 DT 时 代 更 敏捷 ,更 智能 .更 具 
洞察 力 。 

数 加 平台 由 大 数据 计算 服务 (MaxCompute)、 分 析 型 数据 库 (Analytic DB)、 流 计算 
(CStreamCompute) 共 同 组 成 了 底层 强大 的 计算 引擎 ,速度 更 快 、 成 本 更 低 。 计 算 引 擎 之 上 ， 
“ 数 加 ”提供 了 丰富 的 云端 数据 开发 套件 ,包括 数据 集成 .数据 开发 .调度 系统 数据 管理 、 运 
维 视屏 ,数据 质量 任务 监控 等 在 内 。 

数 加 平台 整体 架构 如 图 6-2 所 示 。 
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图 6-2 阿里 云 数 加 平台 
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数 加 平台 具有 如 下 优势 。 

1. 一 站 式 大 数据 解决 方案 

从 数据 导入 、 查 找 、 开 发 ,ETL 调度、 部 署 , 建 模 、BI 报表 、 机 器 学 习 , 到 服务 开发 .发 布 ， 
以 及 外 部 数据 交换 的 完整 大 数据 链 路 ,一 站 式 集成 开发 环境 ,降低 数据 创新 与 创业 成 本 ,如 
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数据 导入 调度 数据 大 屏 移动 数据 分 析 
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ODPS 计 算 引 擎 
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还 有 更 多 … 个 性 化 推荐 ”还 有 更 多 .… 
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2. 大 数据 与 云 计算 的 无 颖 结合 

阿里 云 数 加 平台 构建 在 阿里 云云 计算 基础 设施 之 上 ,简单 快速 接 人 MaxCompute 等 计 
算 引 擎 ,支持 ECS, RDS, OCS, AnalyticDB 等 云 设施 下 的 数据 同步 。 为 企业 获得 在 大 数据 
时 代 最 重要 的 竞争 力 一 一 智能 化 。 

3. 企业 级 数据 安全 控制 

数 加 平台 建立 在 安全 性 在 业界 领先 的 阿里 云 上 ,并 集成 了 最 新 的 阿里 云 大 数据 产品 ,这 
些 大 数据 产品 的 性 能 和 安全 性 在 阿里 巴巴 集团 内 部 已 经 得 到 多 年 的 锤炼 。 数 加 平台 采用 了 
先进 的 “可 用 不 可 见 ” 的 数据 合作 方式 ,并 对 数据 所 有 者 提供 全 方位 的 数据 安全 服务 ,数据 安 
全 体系 包括 : 数据 业务 安全 数据 产品 安全 底层 数 据 安全 、 云 平台 安全 、 接 入 & 网 络 安全 、 
运 维 管理 安全 。 








习题 


.简要 介绍 大 数据 访问 框架 的 主流 实现 技术 。 

. 介绍 大 数据 习题 运行 框架 设计 的 组 成 部 分 。 

. 简 述 大 数据 系统 物理 架构 设计 中 ,映射 过 程 需 考虑 的 问题 。 
. 简 述 大 数据 安全 架构 设计 针对 的 三 层 的 内 容 。 
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在 大 规模 分 布 式 系统 中 ,为 了 高 效 地 处 理 大 量 任务 以 及 存储 大 量 数 据 , 通 常 需要 涉及 多 
个 处 理 节点 ,需要 在 多 个 节点 之 间 通 信和 以 及 协同 处 理 。 高 效 的 节点 之 间 的 通信 以 及 节点 之 
间 的 可 靠 协同 技术 是 保证 分 布 式 系统 正常 运行 的 关键 。 


7.1 数据 编码 传输 


7.1.1 数据 编码 概述 


在 分 布 式 系统 中 需要 处 理 大 量 的 网 络 数据 ,为 了 加 快 网 络 数据 的 传输 速度 ,通常 需要 对 
传输 数据 进行 编码 压缩 ,当然 数据 编码 压缩 传输 技术 也 在 其 他 电子 信息 领域 中 大 量 使 用 ,由 
于 数字 化 的 多 媒体 信息 尤其 是 数字 视频 ,音频 信号 的 数据 量 特别 庞大 ,如 果 不 对 其 进行 有 效 
的 压缩 难以 得 到 实际 的 应 用 ,因此 数据 编码 压缩 技术 已 成 为 当今 数字 通信 广播 .存储 和 多 
媒体 娱乐 中 的 一 项 关键 的 共性 技术 。 

数据 压缩 是 以 尽 可 能 少 的 数码 来 表示 信 源 所 发 出 的 信号 ,减少 容纳 给 定 的 消息 集合 或 
数据 采样 集合 的 信号 空间 。 这 里 讲 的 信号 空间 就 是 被 压缩 的 对 象 ,是 指 某 信 号 集合 所 占 的 
时 域 ` 空 域 和 频 域 。 信 号 空间 的 这 几 种 形式 是 相互 关联 的 ,存储 空间 的 减少 意味 着 信号 传输 
效率 的 提高 ,所 占用 带宽 的 节省 。 只 要 采取 某 种 方法 来 减少 某 个 信号 空间 就 能 够 压缩 数据 。 

一 般 来 说 ,数据 压缩 主要 是 通过 数据 压缩 编码 来 实现 的 。 要 想 使 编码 有 效 ,必须 建立 相 
应 的 系统 模型 。 在 给 定 的 模型 下 通过 数据 编码 来 消除 宛 余 ,大 致 有 以 下 三 种 情况 。 

CD 信 源 符号 之 间 存 在 相关 性 。 如 果 消 除了 这 些 相关 性 ,就 意味 着 数据 压缩 。 例 如 ,位 
图 图 像 像 素 与 像素 之 间 的 相关 性 ,动态 视频 帧 与 帧 之 间 的 相关 性 。 去 掉 这 些 相关 性 通常 采 
用 预测 编码 .变换 编码 等 方法 。 











第 7 章 分 布 式 通信 与 协 








E 





(2) 信 源 符号 之 间 存 在 分 布 不 等 概 性 。 根 据 不 同 符号 出 现 的 不 同 概率 分 别 进行 编码 ， 
概率 大 的 符号 用 较 短 的 码 长 编码 ,概率 小 的 符号 用 较 长 的 码 长 编码 ,最 终 使 信 源 的 平均 码 长 
达到 最 短 。 通 常 采用 统计 编码 的 方法 。 

(3) 利用 信息 内 容 本 身 的 特点 (如 自 相似 性 )。 用 模型 的 方法 对 需 传 输 的 信息 进行 参数 
佑 测 ,充分 利用 人 类 的 视觉 .听觉 等 特性 ,同时 考虑 信息 内 容 的 特性 ,确定 并 遵 选 出 其 中 的 部 
分 内 容 ( 而 不 是 全 部 内 容 ) 进 行 编码 ,从 而 实现 数据 压缩 。 通 常 采用 模型 基 编 码 的 方法 。 

目前 比较 认同 的 ,常用 的 数据 压缩 的 编码 方法 大 致 分 为 两 大 类 。 

(1) 宛 余 压缩 法 或 无 损 压 缩 法 。 元 余 压缩 法 或 无 损 压 缩 法 又 称 为 无 失真 压缩 法 或 炉 编 
码 法 。 这 类 压缩 方法 只 是 去 掉 数 据 中 的 元 余部 分 ,并 没有 损失 粹 ,而 这 些 宛 余 数据 是 可 以 重 
新 插 到 原 数据 中 的 。 也 就 是 说 ,去 掉 宛 余 不 会 减少 信息 量 , 而 且 仍 可 原样 恢复 数据 。 因此， 
这 类 压缩 方法 是 可 道 的 。 

(2) 炉 压 缩 法 或 有 损 压 缩 法 。 这 类 压缩 法 由 于 压缩 了 信 , 也 就 损失 了 信息 量 , 而 损失 的 
信息 是 不 能 恢复 的 。 因 此 ,在 用 门限 值 采 样 量化 时 ,如 果 只 存储 门限 内 的 数据 ,那么 原来 超 
过 这 个 预 置 门限 的 数据 将 丢失 。 这 种 压缩 方法 虽然 可 压缩 大 量 的 信号 空间 ,但 那些 丢失 的 
实际 样 值 不 可 能 恢复 ,是 不 可 逆 的 。 也 就 是 说 ,在 用 炉 压 缩 法 时 数据 压缩 要 以 一 定 的 信息 损 
失 为 代价 ,而 数据 的 恢复 只 能 是 近似 的 ,应 根据 条 件 和 要 求 在 允许 的 范围 内 进行 压缩 。 


7.1.2. LZSS 算法 


LZSS 算法 属于 字典 算法 ,是 把 文本 中 出 现 频率 较 高 的 字符 组 合 做 成 一 个 对 应 的 字典 
列表 ,并 用 特殊 代码 来 表示 这 个 字符 。 图 7-1 为 字典 算法 原理 图 示 。 
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图 7-1 字典 算法 原理 


LZSS 算法 的 字典 模型 使 用 自 适 应 方式 ,基本 的 思路 是 搜索 目前 待 压缩 串 是 否 在 以 前 
出 现 过 ,如 果 出 现 过 , 则 利用 前 次 出 现 的 位 置 和 长 度 来 代替 现在 的 待 压 缩 串 , 输 出 该 字符 串 
的 出 现 位 置 及 长 度 ; 否则 ,输出 新 的 字符 串 , 从 而 起 到 压缩 的 目的 。 但 是 在 实际 使 用 过 程 
中 ,由 于 被 压缩 的 文件 往往 较 大 ,一 般 使 用 “滑动 窗口 压缩 "方式 ,也 就 是 说 将 一 个 虚拟 的 、 可 
以 跟随 压缩 进程 滑动 的 窗口 作为 术语 字典 。LZSS 算法 最 大 的 好 处 是 压缩 算法 的 细节 处 理 
不 同 ,只 对 压缩 率 和 压缩 时 间 有 影响 ,不 会 影响 到 解压 程序 。LZSS 算法 最 大 的 问题 是 速 
度 ,每 次 都 需要 向 前 搜索 到 原文 开头 ,对 于 较 长 的 原文 需要 的 时 间 是 不 可 忍受 的 ,这 也 是 
LZSS 算法 较 大 的 一 个 缺点 。 
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7.1.3 Snappy E Hä PE 


Snappy 是 在 Google 公司 内 部 生产 环境 中 被 许多 项 目 使 用 的 压缩 /解压 缩 的 链接 库 , 使 
用 该 库 的 软件 包括 BigTable, MapReduce 和 RPC 等 ,Google 公司 于 2011 年 开源 了 该 压缩 / 
解压 缩 库 。 在 Intel BFE i7 处 理 器 上 ,在 单 核 64 位 模式 下 ,Snappy 的 压缩 速度 大 概 可 以 达 
到 250MB/s 或 者 更 快 ,解压 缩 可 以 达到 大 约 500MB/s 甚至 更 快 。 如 此 高 的 压缩 速度 是 通 
过 降低 压缩 率 来 实现 的 ,因此 其 输出 要 比 其 他 库 大 2026 —10076. Snappy 对 于 纯 文 本 的 压 
缩 率 为 1.5 一 1.7, 对 于 HTML 是 2 一 4, 当 然 , 对 于 JPEG、PNG 和 其 他 已 经 压缩 过 的 数据 的 
压缩 率 为 1.0。 

Snappy 压缩 库 采用 C++ 实现 ,同时 提供 了 多 种 其 他 语言 的 接口 ,包括 CCH, Go, 
Haskell 等 。Snappy 是 面向 字 节 编 码 的 LZ77 类 型 压缩 器 。Snappy 采用 的 编码 单元 是 字 节 
(Byte) ,而 不 是 比特 (bit) ,采用 该 压缩 库 压缩 后 的 数据 形成 一 个 字 节 流 的 格式 ,格式 如 下 : 
前 面 几 个 字 节 表示 总 体 为 压缩 的 数据 流 长 度 ,采用 小 端 方式 (little-endian) 存 储 , 同 时 兼顾 
可 变 长 度 编码 ,每 个 字 节 的 后 面 7 位 存储 具体 的 数据 ,最 高 位 用 于 表示 下 一 个 字 节 是 否 为 同 
一 个 整数 ; 剩 下 的 字 节 用 4 种 元 素 类 型 中 的 一 种 进行 编码 ,元 素 类 型 在 元 素数 据 中 的 第 一 
个 字 节 ,该 字 节 的 最 后 两 位 表示 类 型 。 

CD 00。 文 本 数据 ,属于 未 压缩 数据 ,类 型 字 节 的 高 6 位 用 于 存储 每 个 元 素 的 数据 内 容 
长 度 。 当 数据 内 容 超 过 60 个 字 节 时 ,采用 额外 的 可 变 长 编码 方式 存储 数据 。 

(2) 01。 数 据 长 度 用 3 位 存储 , 偏 移 量 用 11 位 存储 。 紧 接着 类 型 字 节 后 的 第 一 个 字 节 
也 用 于 存储 偏 移 量 。 

G) 10。 类 型 字 节 中 剩 下 的 高 6 位 用 于 存储 数据 长 度 ,在 类 型 字 节 后 的 两 个 字 节 用 于 
存储 数据 的 偏 移 量 。 

(4) 11。 类 型 字 节 中 剩 下 的 高 6 位 用 于 存储 数据 长 度 , 数 据 偏 移 量 存储 在 类 型 字 节 后 
的 4 个 字 节 , 偏 移 量 采用 小 端 方式 存储 数据 。 


7.2 分 布 式 通信 系统 





分 布 式 通信 研究 分 布 式 系统 中 不 同 子 系统 或 进程 之 间 的 信息 交换 机 制 。 我 们 从 各 种 大 
数据 系统 中 归纳 出 三 种 最 常见 的 通信 机 制 : 远程 过 程 调 用 、 消 息 队 列 和 多 播 通 信 。 其 中 , 远 
程 过 程 调用 的 重点 是 网 络 中 位 于 不 同 机 器 上 进程 之 间 的 交互 ; 消息 队列 的 重点 是 子 系统 之 
间 的 消息 可 靠 传递 ; 多 播 通信 是 实现 信息 的 高 效 多 播 传递 。 这 三 者 都 是 黏合 子 系统 的 有 效 
工具 ,同时 ,它们 对 于 减少 大 数据 系统 中 构件 之 间 的 耦合 ,增强 各 自 的 独立 演进 有 很 大 的 帮 
助 作用 。 


7.2.1 远程 过 程 调用 


远程 过 程 调用 (Remote Procedure Call,RPC) 是 一 个 计算 机 通信 协议 ,通过 该 协议 运行 
于 一 台 计 算 机 上 的 程序 可 以 调用 另 一 台 计算 机 的 子 程序 ,而 程序 员 无 须 额外 地 为 这 个 交互 
编程 。 
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通用 的 RPC 框架 都 支持 以 下 特性 : 接口 描述 语言 高 性 能 .数据 版 本 支持 以 及 二 进 制 
数据 格式 。 

Thrift 是 由 Facebook 公司 开发 的 远程 服务 调用 框架 , 它 采 用 接口 描述 语言 定义 并 创建 
服务 ,支持 可 扩展 的 跨 语言 服务 开发 ,所 包含 的 代码 生成 引擎 可 以 在 多 种 语言 中 ,如 C++、 
Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C # , Cocoa, Smalltalk 等 ,创建 高 效 的 ,无 
颖 的 服务 。 其 传输 数据 采用 二 进 制 格式 ,相对 于 XML 和 JSON 体积 更 小 ,对 于 高 并 发 .大 
数据 量 和 多 语言 的 环境 更 有 优势 。 

Thrift 包含 一 个 完整 的 堆栈 结构 ,用 于 构建 客户 端 和 服务 器 端 。 服 务 器 包含 用 于 绑 定 
协议 和 传输 层 的 基础 架构 , 它 提供 阻塞 、 非 阻塞 、 单 线程 和 多 线程 的 模式 运行 在 服务 器 上 ,可 
以 配合 服务 器 /容器 一 起 运行 ,可 以 和 现 有 的 服务 器 /容器 无 颖 结合 。 

其 使 用 流程 大 致 如 下 。 

首先 使 用 IDL 定义 消息 体 以 及 RPC ROJAKA. (EH IDL 可 以 在 调用 方 和 被 调用 
方 解 耦 ,比如 调用 方 可 以 使 用 C++ ,被 调用 方 可 以 使 用 Java, 这 样 给 整个 系统 带 来 了 极 大 的 
灵活 性 。 

然后 使 用 工具 根据 IDL 定义 文件 生成 指定 编程 语言 的 代码 。 

最 后 即 可 在 应 用 程序 中 连接 使 用 上 一 步 生 成 的 代码 。 对 于 RPC 来 说 ,调用 方 和 被 调用 
方 同时 引入 后 即 可 实现 透明 的 网 络 访问 。 


7.2.2 消息 队列 


消息 队列 也 是 设计 大 规模 分 布 式 系统 时 经 常 采 用 的 中 间 件 产品 。 分 布 式 系统 构件 之 间 
通过 传递 消息 可 以 解除 相互 之 间 的 功能 耦合 ,这 样 就 减轻 了 子 系统 之 间 的 依赖 ,使 得 各 个 子 
系统 或 者 构件 可 以 独立 演进 、 维 护 或 重用 。 消 息 队 列 是 在 消息 传递 过 程 中 保存 消息 的 容器 
或 中 间 件 ,其 主要 目的 是 提供 消息 路 由 并 保障 消息 可 靠 传递 。 

下 面 通过 Linkedin 开源 的 分 布 式 消息 系统 Kafka 介绍 消息 队列 系统 的 整体 设计 思路 。 

Kafka 采用 Pub-Sub 机 制 ,具有 极 高 的 消息 吞吐 量 、 较 强 的 可 扩展 性 和 高 可 用 性 ,消息 
传递 延迟 低 , 能 够 对 消息 队列 进行 持久 化 保存 , 且 支 持 消息 传递 的 “至 少 送 达 一 次 ”语义 。 

一 个 典型 的 Kafka 集群 中 包含 若干 producer, Zr F broker, #-F consumer group, 以 及 
一 个 ZooKeeper 集群 。Kafka 通过 ZooKeeper 管理 集群 配置 ,选举 leader, 以 及 在 consumer 
group 发 生变 化 时 进行 rebalance。producer 使 用 push 模式 将 消息 发 布 到 broker,consumer 
使 用 pull 模式 从 broker 订阅 并 消费 消息 。 

作为 一 个 消息 系统 ,Kafka 遵循 了 传统 的 方式 ,选择 由 producer 向 broker push 消息 并 
由 consumer 向 broker pull 消息 。push 模式 很 难 适应 消费 速率 不 同 的 consumer, 因 为 消息 
发 送 速 率 是 由 broker 决定 的 。push 模式 的 目标 是 尽 可 能 以 最 快 的 速度 传递 消息 ,但 是 这 
样 很 容易 造成 consumer 来 不 及 处 理 消息 ,典型 的 表现 就 是 拒绝 服务 以 及 网 络 阻 塞 。pull 模 
式 可 以 根据 consumer 的 消费 能 力 以 适当 的 速率 消费 信息 。 


7.2.3 应 用 层 多 播 通信 
分 布 式 系统 中 的 一 个 重要 的 研究 内 容 是 如 何 将 数据 通知 到 网 络 中 的 多 个 接收 方 ,一 般 
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被 称 为 多 播 通 信 。 与 网 络 协议 层 的 多 播 通信 不 同 , 这 里 介绍 的 是 应 用 层 多 播 通信 。Gossip 
协议 就 是 常见 的 应 用 层 多 播 通信 协议 ,与 其 他 多 播 协 议 相 比 ,其 在 信息 传递 的 健壮 性 和 传播 
效率 方面 有 较 好 的 折 中 效果 ,使 其 在 大 数据 领域 中 得 以 广泛 使 用 。 

Gossip 协议 也 被 称 为 “感染 协议 ”(Epidemic Protocol) ,用 来 尽快 地 将 本 地 更 新 数据 通 
知 到 网 络 中 的 所 有 其 他 节点 。 其 具体 更 新 模型 又 可 以 分 为 三 种 : AB LEM, S ECRERT 
散布 谣言 模型 。 

在 全 通知 模型 中 , 当 某 个 节点 有 更 新 消息 时 立即 通知 所 有 其 他 节点 ; 其 他 节点 在 接收 
到 通知 后 判断 接收 到 的 消息 是 否 比 本 地 消息 要 新 ,如 果 是 , 则 更 新 本 地 数据 ,否则 ,不 采取 任 
frs. Boh pU n du Hf" Gossip HAN” . 2c Er LA BR 2S " sch" Ji D Os "i " Je FH oe f it 
FAL ICY FERE I Ji s MT ABER. RABE OBI fri B e — x 56 BOI f 
dif EREA BUS AB 2 EA E J BT fr e. IT A e OE BOR BU FF x Ae" ci" 
的 含义 。 

FE bL RUBORE vp ei 己 随 机 选择 集群 中 的 另 一 个 节点 Q ,然后 与 Q 交换 更 新 信息 ; 如 果 
Q 信息 有 更 新 , 则 类 似 P 一样 传播 给 任意 其 他 节点 (此 时 P 也 可 以 再 传播 给 其 他 节点 ), 这 
样 经 过 一 定 轮 数 的 信息 交换 ,更 新 的 信息 就 会 快速 传播 到 整个 网 络 节点 。 

散布 谣言 模型 与 反 和 炉 模 型 相 比 增加 了 传播 停止 判断 。 即 如 果 节 点 了 更 新 了 数据 , 则 随 
机 选择 节点 Q 交换 信息 ; 如 果 节 点 Q 已 经 从 其 他 节点 处 得 知 了 该 更 新 ,那么 节点 P 降低 其 
主动 通知 其 他 节点 的 概率 ,直到 一 定 程度 后 ,节点 P 停止 通知 行为 。 散 布 谣言 模型 能 够 快 
速 传播 变化 ,但 不 能 保证 所 有 节点 都 能 最 终 获得 更 新 。 


7.2.4 Hadoop IPC 应 用 


这 里 以 Hadoop 中 的 RPC 框架 Hadoop IPC 为 基础 讲述 RPC 框架 在 大 数据 系统 中 的 
应 用 。Hadoop 系统 包括 Hadoop Common, Hadoop Distributed File System, Hadoop 
MapReduce 几 个 重要 的 组 成 部 分 ,其 中 , Hadoop Common 用 于 提供 整个 Hadoop 公共 服 
务 , 包 括 Hadoop IPC。 在 Hadoop 系统 中 , Hadoop IPC 为 HDFS, MapReduce 提供 了 高 效 
的 RPC 通信 机 制 ,在 HDFS 中 ,DFSClient 模块 需要 与 NameNode 模块 通信 、DFSClient 模 
块 需要 与 DataNode 模块 通信 、MapReduce 客户 端 需要 与 JobTracker 通信 ,Hadoop IPC 为 
这 些 模块 之 间 的 通信 提供 了 一 种 便利 的 方式 。 

目前 实现 的 Hadoop IPC 具有 采用 TCP 方式 连接 .支持 超时 、 缓 存 等 特征 。Hadoop 
IPC 采用 的 是 经 典 的 C/S 结构 。 

Hadoop IPC 的 Server 端 相 对 比较 复杂 ,包括 Listener, Reader, Handler 和 Responder 
等 多 种 类 型 的 线程 ,Listener 用 于 侦 听 来 自 IPC Client 端的 连接 ,同时 也 负责 管理 与 Client 
端 之 间 的 连接 ,包括 Client 端 超时 需要 删除 连接 ; Reader 线程 用 于 读 取 来 自 Client 端的 数 
据 , Handler 线程 用 于 处 理 来 自 Client 端的 请 求 ,执行 具体 的 操作 ; Responder 线程 用 于 返 
回 处 理 结 果 给 Client 端 。 一般 配置 是 一 个 Listener, £^ Reader, £^ Handler 和 一 个 
Responder, Hadoop IPC 的 组 成 如 图 7-2 所 示 。 

执行 HDFS 读 文件 操作 ,首先 DFSClient 利用 Hadoop IPC 框架 发 起 一 次 RPC 请 求 给 
NameNode, 获 取 DataBlock 信息 。 
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图 7-2 Hadoop IPC 组 成 


在 执行 HDFS 数据 恢复 操作 的 时 候 , DFSClient 需要 执行 recoverBlock RPC 操作 ,发 
送 该 请 求 到 DataNode 节点 上 。 


7.3 ”分布 式 协同 系统 


当前 的 大 规模 分 布 式 系统 涉及 大 量 的 机 器 ,这 些 机 器 之 间 需 要 进行 大 量 的 网 络 通信 以 
及 各 个 节点 之 间 的 消息 通信 协同 。 为 了 减少 分 布 式 系统 中 这 些 工 作 的 重复 开发 , 解 耦 出 分 
布 式 协同 系统 ,有 效 地 提高 了 分 布 式 计算 ,分 布 式 存储 等 系统 的 开发 速度 。 


7.3.1 Chubby 锁 服务 


Chubby 是 Google 公司 研发 的 针对 分 布 式 系统 协调 管理 的 粗 粒度 服务 ,一 个 Chubby 
实例 大 约 可 以 负责 一 万 台 4 核 CPU 机 器 之 间 对 资源 的 协同 管理 。 这 种 服务 的 主要 功能 是 
让 众多 客户 端 程序 进行 相互 之 间 的 同步 ,并 对 系统 环境 或 资源 达成 一 致 的 认 知 。 

Chubby 的 理论 基础 是 Paxos( 一 致 性 协议 ) ,Paxos 是 在 完全 分 布 式 环境 下 不 同 客 户 端 
能 够 通过 交互 通信 并 投票 对 于 某 个 决定 达成 一 致 的 算法 。Chubby 以 此 为 基础 ,但 是 也 进 
行 了 改造 ,Paxos 是 完全 分 布 的 ,没有 中 心 管理 节点 ,需要 通过 多 轮 通信 和 投票 来 达成 最 终 
的 一 致 ,所 以 效率 低 ; Chubby 出 于 对 系统 效率 的 考虑 ,增加 了 一 些 中 心 管理 策略 ,在 达到 同 
一 目标 的 情况 下 改善 了 系统 效率 。 

Chubby 的 设计 目标 基于 以 下 几 点 : 高 可 用 性 、 高 可 靠 性 、 支 持 粗 粒度 的 建议 性 锁 服 务 、 
支持 小 规模 文件 直接 存储 。 这 些 当 然 是 用 高 性 能 与 存储 能 力 折 中 而 来 的 。 

图 7-3 是 Google 论文 中 描述 的 Chubby 的 整体 架构 ,可 以 容易 地 看 出 Chubby 共有 5 
台 服 务 器 ,其 中 一 个 是 主 服务 器 ,客户 端 与 服务 器 之 间 使 用 RPC 交互 。 那 么 ,其 他 服务 器 是 
干什么 的 ? 它们 纯粹 是 作为 主 服务 器 不 可 用 后 的 替代 品 。 而 ZooKeeper 的 多 余 服务 器 均 是 提 
供 就 近 服 务 的 ,也 就 是 服务 器 会 根据 地 理 位 置 与 网 络 情况 来 选择 对 哪些 客户 端 给 予 服 务 。 
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Chubby 单 元 的 
5 个 服务 器 


客户 端 ! Chubby 
应 用 程序 v 程序 库 


客户 端 1 Chubby 
应 用 程序 ! 程序 库 


客户 端 进程 








图 7-3 Chubby 整体 架构 


Chubby 单元 中 的 主 服务 器 由 所 有 服务 器 选举 推出 ,但 是 并 非 从 始 至 终 一 直 都 由 其 担 
任 这 一 角色 , 它 是 有 “任期 "的 , 即 Master Lease, 一 般 长 达 几 秒 。 如 果 无 故障 发 生 , 一 般 系 统 
尽量 将 “租约 ” 交 给 原先 的 主 服务 器 ,否则 可 以 通过 重新 选举 得 到 一 个 新 的 全 局 管理 服务 器 ， 
这 样 就 实现 了 主 服务 器 的 自动 切换 。 

客户 端 通过 嵌入 的 库 程序 ,利用 RPC 通信 和 服务 器 进行 交互 ,对 Chubby 的 读 / 写 请 求 
都 由 主 服务 器 负责 。 主 服务 器 遇 到 数据 更 新 请 求 后 会 更 改 在 内 存 中 维护 的 管理 数据 ,通过 
改造 的 Paxos 协议 通知 其 他 备份 服务 器 对 相应 的 数据 进行 更 新 操作 ,并 保证 在 多 副本 环境 
下 的 数据 一 致 性 ; 当 多 数 备份 服务 器 确认 更 新 完成 后 , 主 服务 器 可 以 认为 本 次 更 新 操作 正 
确 完成 。 其 他 所 有 备份 服务 器 只 是 同步 管理 数据 到 本 地 ,保持 数据 和 主 服务 器 完全 一 致 。 
通信 协议 如 图 7-4 所 示 。 


旧 的 主 服 ， 无 主 服务 器 | 选 出 新 的 
Swap | 


租约 期 M2 


! 新 的 E 
租约 期 M3 — |， 服务 器 










KeepAlives 





7 租约 期 C3 
租约 期 C1 - 客户 中 
租约 期 C | — 宽 限期 


危险 状态 临界 点 安全 状态 临界 点 
图 7-4 Client 5 Chubby 的 通信 


KeepAlive 是 周期 性 发 送 的 一 种 消息 , 它 有 两 方面 的 功能 : 延长 租约 有 效 期 ,携带 事件 
信息 告诉 客户 端 更 新 。 事 件 包括 文件 内 容 的 修改 、 子 节点 的 增删 改 、Master 出 错 等。 在 正 
常情 况 下 ,租约 会 由 KeepAlive 一 直 不 断 延 长 。 如 果 Cl 在 未 用 完 租约 期 时 发 现 还 需 使 用 ， 
便 发 送 锁 请 求 给 Master. Master 给 它 Lease-M1; C2 在 过 了 租约 期 后 ,发 送 锁 请 求 给 
Master, 可 是 未 收 到 Master 的 回答 。 其 实 此 刻 Master 已 经 宕 机 了 ,于 是 Chubby 进入 宽 限 
期 ,在 这 期 间 Chubby 要 选举 出 新 的 Master, Google 论文 里 对 于 这 段 时 期 有 一 个 更 形象 的 
名 字 一 一 Grace Period。 在 选举 出 Master 后 ,新 的 主 服 务 器 下 令 前 主 服 务 器 发 的 Lease 失 
效 , 必 须 申请 一 份 新 的 。 然 后 C2 获得 了 Lease-M2. C3 又 恢复 到 正常 情况 。 在 图 7-4 中 4、 
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5,6,7,8 是 通过 Paxos 算法 选举 Master MEHA. fe Jc 8 [8] de A vr Ge j^ ^E FR] E. Amazon 
的 分 布 式 服务 就 曾 因 此 宕 机 ,导致 很 长 时 间 服 务 不 可 用 。 


7.3.2 ZooKeeper 


ZooKeeper 是 Yahoo! 公司 开发 的 一 套 开源 高 吞吐 分 布 式 协同 系统 ,目前 已 经 在 各 种 
NoSQL 数据 库 及 诸多 开源 软件 中 获得 广泛 使 用 。 分 布 式 应 用 中 的 各 节点 可 以 通过 
ZooKeeper 这 个 第 三 方 来 确保 双方 的 同步 ,比如 一 个 节点 是 发 送 , 另 一 个 节点 是 接收 ,但 发 
送 节 点 需要 确认 接收 节点 成 功 收 到 这 个 消息 ,因而 就 可 以 通过 与 一 个 可 靠 的 第 三 方 交互 来 
获取 接收 节点 的 消息 接收 状态 。 

ZooKeeper 也 是 由 多 台 同 构 服 务 器 构成 的 一 个 集群 ,共用 信息 存储 在 集群 系统 中 。 共 
用 信息 采用 树 状 结构 来 存储 ,用 户 可 以 将 其 看 作 一 个 文件 系统 ,只 是 这 些 文件 是 一 直 存放 在 
内 存 中 的 ,文件 存储 容量 受到 内 存 的 限制 。 

既然 ZooKeeper 可 以 被 看 作 一 个 文件 系统 ,那么 它 就 具有 文件 系统 相应 的 功能 ,只 是 
在 ZooKeeper 和 文件 系统 中 功能 的 叫 法 不 同 。ZooKeeper 提供 创建 节点 、 删 除 节点 、 创 建 子 
节点 ,获取 节点 内 容 等 功能 。 

ZooKeeper 服务 由 若干 台 服 务 器 构成 ,每 台 服 务 器 内 存 中 维护 相同 的 树 状 数据 结构 。 
其 中 的 一 台 通过 ZAB 原子 广播 协议 选举 作为 主 服 务 器 ,其 他 的 作为 从 服务 器 。 客 户 端 可 以 
通过 TCP 连接 任意 一 台 服务 器 ,如 果 是 读 操 作 请 求 ,任意 一 个 服务 器 都 可 以 直接 响应 请 求 ; 
如 果 是 写 数 据 操作 请 求 , 则 只 能 由 主 服 务 器 来 协调 更 新 操作 。Chubby 在 这 一 点 上 与 
ZooKeeper 不 同 , 所 有 的 读 / 写 操作 都 由 主 服务 器 完成 ,从 服务 器 只 是 用 于 提高 整个 协调 系 
统 的 可 用 性 。 

在 带 来 高 春 吐 量 的 同时 ,ZooKeeper 的 这 种 做 法 也 带 来 了 潜在 的 问题 : 客户 端 可 能 读 
到 过 期 的 数据 。 因 为 即使 主 服务 器 已 经 更 新 了 某 个 内 存 数据 ,但 是 ZAB 协议 还 未 能 将 其 广 
播 到 从 服务 器 。 为 了 解决 这 一 问题 ,在 ZooKeeper 的 接口 API 函数 中 提供 了 Sync 操作 ,应 
用 可 以 根据 需要 在 读数 据 前 调用 该 操作 ,其 含义 是 接收 到 Sync 命令 的 从 服务 器 从 主 服务 器 
同步 状态 信息 ,保证 两 者 完全 一 致 。 


7.3.3 ZooKeeper 在 HDFS 高 可 用 中 使 用 


HDFS 由 三 个 模块 构成 ,分 别 包 括 Client, NameNode 和 DataNode。NameNode 负责 
管理 所 有 的 DataNode 节点 ,保存 block 和 DataNode 之 间 的 对 应 信息 ,Client 读 取 文 件 和 写 
入 文件 都 需要 NameNode 节点 的 参与 ,因此 NameNode 发 挥 着 至 关 重 要 的 作用 。 在 当前 设 
计 中 ,NameNode 是 单 节点 方式 ,存在 单 点 故障 问题 , 即 NameNode 节点 宕 机 之 后 HDFS 无 
法 再 对 外 提供 数据 存储 服务 ,需要 设计 一 种 HDFS NameNode 节点 的 高 可 用 方法 。 总 体 来 
讲 ,维护 HDFS 高 可 用 基于 以 下 两 个 目的 。 

(1) 在 出 现 NameNode 节点 故障 时 HDFS 仍然 可 以 对 外 提供 数据 的 读 取 和 写 人 服务 。 

(2) HDFS 会 出 现 版 本 的 更 新 迭代 ,以 保证 HDFS 在 更 新 过 程 中 仍然 可 以 对 外 提供 
服务 。 

HDFS 为 了 实现 上 述 目 的 ,采用 的 方式 是 再 提供 一 个 额外 的 NameNode 节点 ,以 此 达 
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到 HDFS 的 高 可 用 目的 。 在 使 用 过 程 中 部 署 两 个 NameNode 节点 ,一 个 NameNode 节点 为 
Active 节点 , 另 一 个 NameNode 节点 是 Standby 节点 。 在 正常 情况 下 ,Active 的 NameNode 
节点 服务 正常 的 请 求 ,一 旦 出 现 Active NameNode 节点 故障 , 则 Standby NameNode 节点 
切换 变 成 Active 节点 ,然后 这 个 新 的 Active NameNode 继续 提供 NameNode 的 功能 ,使 
HDFS 可 以 继续 正常 工作 。 但 是 为 了 保证 上 述 过 程 正常 运行 ,需要 解决 以 下 问题 。 

(1) Standby 如 何 知道 Active 节点 出 现 故障 无 法 正常 服务 ,需要 探测 系统 何 时 出 现 
故障 。 

(2) 当 出 现 Active NameNode 节点 故障 时 ,多 个 Standby NameNode 节点 如 何 选择 一 
个 新 的 Active NameNode 节点 。 

一 种 解决 上 述 问 题 的 HDFS 高 可 用 方法 是 采用 ZK Failover Controller 的 方法 ,具体 结 
构 如 图 7-5 所 示 。 
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图 7-5 基于 ZooKeeper 的 HDFS 高 可 用 方法 


采用 ZK(ZooKeeper) 设 计 HDFS 高 可 用 方案 基于 以 下 几 点 。 

(1) ZooKeeper 提供 了 小 规模 的 任意 数据 信息 的 强 一 致 性 。 

(2) 可 以 在 ZooKeeper 集群 中 创建 一 个 临时 znode 节点 , 当 创建 该 znode 节点 的 Client 
失效 时 ,该 临时 znode 节点 会 自动 删除 。 

(3) 能 够 监控 ZooKeeper 集群 中 的 一 个 znode 节点 的 状态 发 生 改 变 , 并 被 异步 通知 。 

上 述 设 计 的 基于 ZK 的 HDFS 高 可 用 方法 由 ZKFC, HealthMonitor, ActiveStandbyElector 
几 个 主要 部 分 组 成 。 

(1) HealthMonitor 是 一 个 线程 ,用 于 监控 本 地 NameNode 的 状态 信息 ,维持 一 个 状态 
信息 的 视图 ,监控 采用 RPC 方式 。 当 状态 信息 发 生 改 变 时 ,通过 callback 接口 方式 发 送 消 
息 给 ZKFC。 

(2) ActiveStandbyElector 主要 用 于 和 ZooKeeper 进行 协调 ,ZKFC 与 它 通信 主要 由 两 
个 函数 调用 ,分 别 是 joinElection 和 quitElection 。 
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(3) ZKFailoverController 订阅 来 自 ActiveStandbyElector 和 HealthMonitor 的 消息 ， 
同时 管理 NameNode 的 状态 。 

整体 运行 过 程 如 下 : 启动 的 时 候 初 始 化 HealthMonitor 去 监控 本 地 NameNode 节点 ， 
同时 用 ZooKeeper 信息 来 初始 化 ActiveStandbyElector, 不 立即 把 该 NameNode 节点 加 入 
选举 。 同 时 , 随 着 ActiveStandbyElector 和 HealthMonitor 状态 的 改变 ,ZKFC 做 出 对 应 的 
响应 。 


习题 


. 简 述 数据 编码 传输 的 好 处 。 

. 简要 介绍 Snappy 压缩 库 , 包 括 功能 和 数据 格式 。 

.简要 介绍 Chubby 的 工作 原理 。 

. 简 述 ZooKeeper 在 HDFS 高 可 用 方案 中 发 挥 作用 的 理由 。 


sw nw es 


75 


& x 


大 数据 存储 





随 着 结构 化 数据 量 和 非 结 构 化 数据 量 的 不 断 增长 ,以 及 分 析 数 据 来 源 的 多 样 化 ,之 前 的 
存储 系统 设计 已 无 法 满足 大 数据 应 用 的 需求 。 对 于 大 数据 的 存储 ,存在 以 下 几 个 不 容 忽视 
的 问题 。 

1. 容量 

大 数据 时 代 存 在 的 第 一 个 问题 就 是 "大 容量 ”"。“ 大 容量 "通常 是 指 可 达 PB 级 的 数据 规 
模 ,因此 海量 数据 存储 系统 的 扩展 能 力也 要 得 到 相应 等 级 的 提升 ,同时 其 扩展 还 必须 渐变 ， 
为 此 ,通过 增加 磁盘 柜 或 模块 来 增加 存储 容量 ,这 样 可 以 不 需要 停机 。 

2. 延迟 

大 数据 应 用 不 可 避免 地 存在 实时 性 的 问题 ,大 数据 应 用 环境 通常 需要 较 高 的 TOPS 性 
能 。 为 了 迎接 这 些 挑战 ,小 到 简单 的 在 服务 器 内 用 作 高 速 缓存 的 产品 ,大 到 全 固态 介质 可 扩 
展 存储 系统 ,各 种 模式 的 固态 存储 设备 应 运 而 生 。 

3. 安全 

大 数据 的 分 析 往 往 需要 对 多 种 数据 混合 访问 ,这 就 催生 出 了 一 些 新 的 、 需 要 重新 考虑 的 
安全 性 问题 。 

4. 成 本 

成 本 控制 是 企业 的 关键 问题 之 一 ,只 有 让 每 一 台 设备 都 实现 更 高 的 “效率 ”, 才 能 控制 住 
成 本 。 目 前 进入 存储 市 场 的 重复 数据 删除 、 多 数据 类 型 处 理 等 技术 都 可 为 大 数据 存储 带 来 
更 大 的 价值 ,提升 存储 效率 。 

5. 灵活 性 

通常 ,大 数据 存储 系统 的 基础 设施 规模 都 很 大 ,为 了 保证 存储 系统 的 灵活 性 ,使 其 能 够 
随时 扩容 及 扩展 ,必须 经 过 详细 的 设计 。 
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由 于 传统 关系 型 数据 库 的 局 限 性 ,传统 的 数据 库 已 经 不 能 很 好 地 解决 这 些 问 题 。 在 这 
种 情况 下 ,一 些 主要 针对 非 结 构 化 数据 的 管理 系统 开始 出 现 。 这 些 系统 为 了 保障 系统 的 可 
用 性 和 并 发 性 ,通常 采用 多 副本 的 方式 进行 数据 存储 。 为 了 在 保证 低 延 时 的 用 户 响应 时 间 
的 同时 维持 副本 之 间 的 一 致 状态 ,采用 较 弱 的 一 致 性 模型 ,而且 这 些 系统 也 普遍 提供 了 良好 
的 负载 平衡 策略 和 容错 机 制 。 


8.1 大 数据 存储 技术 发 展 


在 20 世纪 50 年 代 中 期 以 前 ,计算 机 主要 用 于 科学 计算 ,这 个 时 候 存 储 的 数据 规模 不 
大 ,数据 管理 采用 的 是 人 工 管理 的 方式 ; 在 20 世纪 50 年 代 后 期 至 20 世纪 60 年 代 后 期 ,为 
了 更 加 方便 管理 和 操作 数据 ,出 现 了 文件 系统 ; 从 20 世纪 60 年 代 后 期 开始 ,出 现 了 大 量 的 结 
构 化 数据 ,数据 库 技 术 莲 勃 发 展 ,开始 出 现 了 各 种 数据 库 , 其 中 以 关系 型 数据 库 备 受 人 们 喜爱 。 

在 科学 研究 过 程 中 ,为 了 存储 大 量 的 科学 计算 ,有 Beowulf 集群 的 并 行文 件 系统 PVFS 
做 数据 存储 ,在 超级 计算 机 上 有 Lustre 并 行文 件 系 统 存储 大 量 数据 ,IBM 公司 在 分 布 式 文 
件 系统 领域 研制 了 GPFS 分 布 式 文件 系统 ,这 些 都 是 针对 高 端 计算 采用 的 分 布 式 存储 系统 。 

进入 21 世纪 以 后 ,互联 网 技术 不 断 发 展 ,其 中 以 互联 网 为 代表 企业 产生 大 量 的 数据 。 
为 了 解决 这 些 存 储 问题 ,互联 网 公司 针对 自己 的 业务 需求 和 基于 成 本 考虑 开始 设计 自己 的 
存储 系统 ,典型 代表 是 Google 公司 于 2003 年 发 表 的 论文 Google File System ,其 建立 在 廉 
价 的 机 器 上 ,提供 了 高 可 靠 、 容 错 的 功能 。 为 了 适应 Google 的 业务 发 展 ,Google 推出 了 
BigTable 这 样 一 种 NoSQL 非 关 系 型 数据 库 系 统 , 用 于 存储 海量 网 页 数据 ,数据 存储 格式 为 
行列 得、 列 、 值 的 方式 ; 与 此 同时 ,亚马逊 公司 公布 了 他 们 开发 的 另外 一 种 NoSQL 系 
统一 一 DynamoDB。 后 续 大 量 的 NoSQL 系统 不 断 涌现 ,为 了 满足 互联 网 中 的 大 规模 网 络 数 
据 的 存储 需求 ,其 中 ,Facebook 结合 BigTable 和 DynamoDB 的 优点 ,推出 了 Cassandra dE 
关系 型 数据 库 系统 。 

开源 社区 对 于 大 数据 存储 技术 的 发 展 更 是 贡献 重大 ,其 中 包括 底层 的 操作 系统 层面 的 
存储 技术 ,比如 文件 系统 BTRFS 和 XFS 等 。 为 了 适应 当前 大 数据 技术 的 发 展 , 支 持 高 并 
发 ,多核 以 及 动态 扩展 等 ,Linux 开源 社区 针对 技术 发 展 需求 开发 下 一 代 操 作 系统 的 文件 系 
统 BTRFS, 该 文件 系统 在 不 断 完 善 ; 同时 也 包括 分 布 式 系 统 存储 技术 , 功 不 可 没 的 是 
Apache 开源 社区 ,其 贡献 和 发 展 了 HDFS、HBase 等 大 数据 存储 系统 。 

总 体 来 讲 , 结 合 公司 的 业务 需求 以 及 开源 社区 的 蓬勃 发 展 , 当 前 大 数据 存储 系统 不 断 
涌现 。 


8.2 海量 数据 存储 的 关键 技术 


大 数据 处 理 面临 的 首要 问题 是 如 何 有 效 地 存储 规模 巨大 的 数据 。 无 论 是 从 容量 还 是 从 
数据 传输 速度 ,依靠 集中 式 的 物理 服务 器 来 保存 数据 是 不 现实 的 ,即使 存在 这 么 一 台 设 备 可 
以 存储 所 有 的 信息 ,用 户 在 一 台 服务 器 上 进行 数据 的 索引 查询 也 会 使 处 理 器 变 得 不 堪 重 负 ， 
因此 分 布 式 成 为 这 种 情况 的 很 好 的 解决 方案 。 要 实现 大 数据 的 存储 ,需要 使 用 几 十 台 、 几 百 
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台 甚至 更 多 的 分 布 式 服务 器 节点 。 为 保证 高 可 用 、 高 可 靠 和 经 济 性 ,海量 数据 多 采用 分 布 式 
存储 的 方式 来 存储 数据 ,采用 宛 余 存储 的 方式 来 保证 存储 数据 的 可 靠 性 , 即 为 同一 份 数据 存 
储 多 个 副本 。 

数据 分 片 与 数据 复制 的 关系 如 图 8-1 所 示 。 
































分 片 1 分 片 2 分 片 3 分 片 4 
1 1 1 
副本 副本 副本 副本 
Y | Y 了 
副本 副本 副本 副本 






































图 8-1 数据 分 片 与 数据 复制 


8.2.1 数据 分 片 与 路 由 


传统 数据 库 采 用 纵向 扩展 方式 ,通过 改善 单机 硬件 资源 配置 来 解决 问题 ; 主流 大 数据 存 
储 与 计算 系统 采用 横向 扩展 方式 ,支持 系统 可 扩展 性 , 即 通过 增加 机 器 来 获得 水 平 扩展 能 力 。 

对 于 海量 数据 ,将 数据 进行 切 分 并 分 配 到 各 个 机 器 中 的 过 程 叫 分 片 (shard/partition)， 
即将 不 同 数据 存放 在 不 同 节点 。 数 据 分 片 后 ,找到 某 条 记录 的 存储 位 置 称 为 数据 路 由 。 数 
据 分 片 与 路 由 的 抽象 模型 如 图 8-2 所 示 o 





数据 路 由 机 制 
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key-partitiontit j| 数据 分 片 partition-machine 映 射 物理 机 器 
图 8-2 数据 分 片 与 路 由 的 抽象 模型 





1. 数据 分 片 
一 般 来 说 ,数据 库 的 繁忙 体现 在 不 同 用 户 需 要 访问 数据 集中 的 不 同 部 分 。 在 这 种 情况 
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下 ,把 数据 的 各 个 部 分 存放 在 不 同 的 服务 器 /节点 中 ,每 个 服务 器 /节点 负责 自身 数据 的 读 取 
与 写 人 操作 ,以 此 实现 横向 扩展 ,这 种 技术 称 为 分 片 。 

用 户 必 须 考虑 以 下 两 点 。 

(1) 如 何 存放 数据 。 可 以 实现 用 户 从 一 个 逻辑 节点 (实际 多 个 物理 节点 的 方式 ) 获 取 数 
据 , 并 且 不 用 担心 数据 的 存放 位 置 。 面 向 聚合 的 数据 库 可 以 很 容易 地 解决 这 个 问题 。 聚 合 
结构 是 指 把 经 常 需要 同时 访问 的 数据 存放 在 一 起 ,因此 可 以 把 聚合 作为 分 布 数据 的 单元 。 

(2) 如 何 保证 负载 平衡 。 即 如 何 把 聚合 数据 均匀 地 分 布 在 各 个 节点 中 ,让 它们 需要 处 
理 的 负载 量 相等 。 负 载 分 布 情况 可 能 会 随 着 时 间 变 化 ,因此 需要 一 些 领域 特定 的 规则 。 比 
如 有 的 需要 按 字 典 顺序 ,有 的 需要 按 逆 域 名 序列 等 。 

下 面 讲述 一 下 分 片 类 型 。 

D 哈 希 分 片 

采用 哈 希 函数 建立 Key-Partition 映射 ,其 只 支持 点 查询 ,不 支持 范围 查询 ,主要 有 
Round Robin、\ 虚 拟 桶 一 致 性 喻 希 三 种 算法 。 

(1) Round Robin。 其 俗称 喻 希 取 模 算法 ,这 是 实际 中 最 常用 的 数据 分 片 方 法 。 若 有 外 
台 机 器 ,分 片 算 法 如 下 : 

H(key)=hash(key) mod k 

对 物理 机 进行 编号 (0 一 A 一 1) ,根据 以 上 哈 希 函数 ,对 于 以 key 为 主键 的 某 个 记录 ， 
五 (key) 的 数值 即 是 物理 机 在 集群 中 的 放置 位 置 (编号 ) 。 

优点 : 实现 简单 。 

缺点 : 缺乏 灵活 性 , 若 有 新 机 器 加 入 ,之 前 所 有 数据 与 机 器 之 间 的 映射 关系 都 被 打 乱 ， 
需要 重新 计算 。 

(2) EMAI. E Round Robin 的 基础 上 ,虚拟 桶 算法 加 入 一 个 “虚拟 桶 层 ”, 形 成 两 级 映 
射 。 所 有 记录 首先 通过 哈 希 函数 映射 到 对 应 的 虚拟 桶 (多 对 一 映射 );。 虚 拟 桶 和 物理 机 之 间 
再 有 一 层 映 射 (同样 是 多 对 一 ) 。 一 般 通过 查找 表 来 获知 虚拟 桶 与 物理 机 之 间 的 映射 关系 。 
具体 以 Membase 为 例 , 如 图 8-3 所 示 。 
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图 8-3 Membase 虚拟 桶 的 运行 
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Membase 在 待 存储 记录 的 物理 机 之 间 引 入 了 虚拟 桶 层 , 所 有 记录 首先 通过 哈 希 函数 映 
射 到 对 应 的 虚拟 桶 ,记录 和 虚拟 桶 是 多 对 一 的 关系 , 即 一 个 虚拟 桶 包含 多 条 记录 信息 ; 第 二 
层 映 射 是 虚拟 桶 和 物理 机 之 间 的 映射 关系 ,同样 也 是 多 对 一 映射 ,一 个 物理 机 可 以 容纳 多 个 
虚拟 桶 ,具体 是 通过 查找 表 来 实现 的 , 即 Membase 通过 内 存 表 管理 这 些 映射 关系 。 

对 照 抽 象 模型 可 以 看 出 ,Membase 的 虚拟 桶 层 对 应 数据 分 片 层 ,一 个 虚拟 桶 就 是 一 个 
数据 分 片 。Key-Partition 映射 采用 映射 函数 。 

与 Round Robin 相 比 ,Membase 引入 了 虚拟 桶 层 , 这 样 将 原先 由 记录 直接 到 物理 机 的 
单 层 映射 解 看 成 两 级 映射 。 当 新 加 入 机 器 时 ,将 某 些 虚拟 桶 从 原先 分 配 的 机 器 重新 分 配给 
各 机 器 ,只 需要 修改 partition-machine 映射 表 中 受 影响 的 个 别 条 目 就 能 实现 扩展 。 

优点 : 增加 了 系统 扩展 的 灵活 性 。 

缺点 : 实现 相对 麻烦 。 

(3) 一 致 性 哈 希 。 一 致 性 喻 希 是 分 布 式 喻 希 表 的 一 种 实现 算法 ,将 喻 希 数 值 空间 按照 
大 小 组 成 一 个 首尾 相 接 的 环 状 序列 ,对 于 每 台 机 器 ,可 以 根据 TP 和 端口 号 经 过 喻 希 函 数 映 
射 到 哈 希 数值 空间 内 。 通 过 有 向 环 顺序 查找 或 路 由 表 来 查找 。 对 于 一 致 性 哈 希 可 能 造成 的 
各 个 节点 负载 不 均衡 的 情况 ,可 以 采用 虚拟 节点 的 方式 来 解决 。 一 个 物理 机 节点 虚拟 成 若 
干 虚拟 节点 ,映射 到 环 状 结构 的 不 同位 置 。 图 8-4 为 喻 希 空间 长 度 为 5 的 二 进 制 数值 (mm 一 5) 
的 一 致 性 喻 希 算法 示意 图 。 









H(key)=31 
pa H(key)-0 


NI2 
图 8-4 一 致 性 哈 希 算法 


在 喻 希 空间 可 容纳 长 度 为 32 的 二 进 制 数值 (m 二 32) 空 间 里 ,每 个 机 器 根据 TP 地 址 或 
者 端口 号 经 过 哈 希 函数 映射 到 环 内 (图 中 6 个 大 圆 代表 机 器 ,后 面 的 数字 代表 喻 希 值 , 即 根 
据 IP 地 址 或 者 端口 号 经 过 哈 希 函数 计算 得 出 的 在 环 状 空 间 内 的 具体 位 置 ) ,而 这 台 机 器 负 
责 存储 落 在 一 段 有 序 哈 希 空间 内 的 数据 ,比如 N12 节点 存储 哈 希 值 在 9 — 12 的 数据 ,而 NS 
负责 存储 哈 希 值 落 在 30 一 31 和 0 一 5 的 数据 。 同 时 ,每 台 机 器 还 记录 着 自己 的 前 驱 和 后 继 
节点 ,成 为 一 个 真正 意义 上 的 有 向 环 。 

2) 范围 分 片 

范围 分 片 首先 将 所 有 记录 的 主键 进行 排序 .然后 在 排 好 序 的 主键 空间 里 将 记录 划分 成 
数据 分 片 ,每 个 数据 分 片 存储 有 序 的 主键 空间 片段 内 的 所 有 记录 。 
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支持 范围 查询 即 给 定 记 录 主 键 的 范围 而 一 次 读 取 多 条 记录 ,范围 分 片 既 支持 点 查询 ,也 
支持 范围 查询 。 

分 片 可 以 极 大 地 提高 读 取 性 能 ,但 对 于 频繁 写 的 应 用 帮助 不 大 。 同 时 ,分 片 也 可 减少 故 
障 范围 ,只 有 访问 故障 节点 的 用 户 才 会 受 影响 ,访问 其 他 节点 的 用 户 不 会 受到 故障 节点 的 
影响 。 

2. 路 由 

那么 如 何 根据 收 到 的 请 求 找到 储存 的 值 呢 ? 下 面 介绍 三 种 方法 。 

1) 直接 查找 法 

如 果 哈 希 值 落 在 自身 管辖 的 范围 内 , 则 在 此 节点 上 查询 ,否则 继续 往 后 找 ,一 直 找 到 节 
点 Nz,z 是 大 于 等 于 待 查 节点 值 的 最 小 编号 ,这 样 一 圈 下 来 肯定 能 找到 结果 。 

以 图 8-4 为 例 , 如 有 一 个 请 求 向 N5 查询 的 主键 为 key) = 6. D 2S Ib s ir (ELS TE N5 
和 NS8 之 间 , 所 以 该 请 求 的 值 存储 在 NS 的 节点 上 , 即 如 果 哈 希 值 落 在 自身 管辖 的 范围 内 , 则 
在 此 节点 上 查询 ,否则 继续 往 后 找 ,一 直 找 到 节点 Nz,z 是 大 于 等 于 待 查 节点 值 的 最 小 
编号 。 

2) 路 由 表 法 

直接 查找 法 缺乏 效率 ,为 了 加 快 查找 速度 ,可 以 在 每 个 机 器 节点 配置 路 由 表 , 路 由 表 存 
储 每 个 节点 到 每 个 除 自身 节点 的 距离 ,具体 示例 见 表 8-1。 

表 8-1 机 器 节点 路 由 表 
距离 1 2 4 8 16 
机 器 节点 N17 N17 N17 N20 N29 








在 表 8-1 中 ,第 3 项 代表 与 N12 的 节点 距离 为 4 的 哈 希 值 (12 十 4 一 16) 落 在 N17 节点 
身上 , 同 理 , 第 5 项 代表 与 N12 的 距离 为 16 的 哈 希 值 落 在 N29 身上 ,这 样 找 起 来 非常 快速 。 
3) 一 致 性 喻 希 路 由 算法 
同样 如 图 8-4 所 示 , 如 请 求 节点 N5 查询 ,N5 的 路 由 表 如 表 8-2 所 示 。 
X32 NS 节点 路 由 表 
距离 1 2 4 8 16 





机 器 节点 | N8 | N8 | N12 | N17 | N29 





假如 请 求 的 主键 哈 希 值 为 HH(key) 二 24, 首 先 查 询 是 否 在 N5 的 后 继 节 点 上 ,发现 后 继 
节点 N8 小 于 主键 哈 希 值 , 则 根据 NO 的 路 由 表 查 询 , 发 现 大 于 24 的 最 小 节点 为 N29( 只 有 
29 ,因为 5+16=21<24) ,因此 哈 希 值 落 在 N29 上 。 


8.2.2 数据 复制 与 一 致 性 


将 同一 份 数据 放置 到 多 个 节点 ( 主 从 master-slave 方式 、 对 等 式 peer-to-peer) 的 过 程 称 
为 复制 ,数据 复制 可 以 保证 数据 的 高 可 用 性 。 

1. 主 从 复制 

master-slave 模式 ,其 中 有 一 个 master 节点 ,存放 重要 数据 ,通常 负责 数据 的 更 新 ,其 余 
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节点 都 叫 slave 节点 ,复制 操作 就 是 让 slave 节点 的 数据 与 master 节点 的 数据 同步 。 

优点 : 

CD 在 频繁 读 取 的 情况 下 有 助 于 提升 数据 的 访问 速度 ( 读 取 slave 节点 分 担 压 力 ) ,还 可 
以 增加 多 个 slave 节点 进行 水 平 扩展 ,同时 处 理 更 多 的 读 取 请 求 。 

(2) 可 以 增强 读 取 操 作 的 故障 恢复 能 力 。 一 个 slave 出 故障 ,还 有 其 他 slave 保证 访问 
的 正常 进行 。 

缺点 : 数据 一 致 性 ,如 果 数 据 更 新 没有 通知 到 全 部 的 slave 节点 , 则 会 导致 数据 不 一 致 。 

2. 对 等 复制 

主 从 复制 有 助 于 增强 读 取 操作 的 故障 恢复 能 力 , 对 写 操作 频繁 的 应 用 没有 帮助 。 它 所 
提供 的 故障 恢复 能 力 只 有 在 slave 节点 出 错时 才能 体现 出 来 ,master 仍然 是 系统 的 瓶颈 。 
对 等 复制 是 指 两 个 节点 相互 为 各 自 的 副本 ,没有 主 从 的 概念 。 

优点 : 丢失 其 中 一 个 节点 不 影响 整个 数据 库 的 访问 。 

缺点 : 因为 同时 接受 写 和 请求, 容易 出 现 数据 不 一 致 问题 。 在 实际 使 用 中 ,通常 只 有 一 
个 节点 接受 写 人 请 求 , 另 一 个 master 作为 候补 ,只 有 当 对 等 的 master 出 故障 时 才 会 自动 承 

3. 数据 一 致 性 

有 一 个 存储 系统 ,其 底层 是 一 个 复杂 的 高 可 用 \ 高 可 靠 的 分 布 式 存储 系统 。 一 致 性 模型 
的 定义 如 下 。 

CD) 强 一 致 。 按 照 某 一 顺序 串 行 执行 存储 对 象 的 读 / 写 操作 ,更 新 存储 对 象 之 后 ,后 续 
访问 总 是 读 到 最 新 值 。 假 如 进程 A 先 更 新 了 存储 对 象 ,存储 系统 保证 后 续 A、B、C 的 读 取 
操作 都 将 返回 最 新 值 。 

(2) 弱 一 致 性 。 更 新 存储 对 象 之 后 ,后续 访问 可 能 读 不 到 最 新 值 。 假 如 进程 A 先 更 新 
了 存储 对 象 , 存 储 系统 不 能 保证 后 续 A、B、C 的 读 取 操 作 能 读 取 到 最 新 值 。 从 更 新 成 功 这 一 
刻 开始 算 起 ,到 所 有 访问 者 都 能 读 到 修改 后 的 对 象 为 止 ,这 段 时 间 称 为 "不一致 性 窗口 ”在 
该 窗口 内 访问 存储 时 无 法 保证 一 致 性 。 

(3) 最 终 一 致 性 。 最 终 一 致 性 是 弱 一 致 性 的 特例 ,存储 系统 保证 所 有 访问 将 最 终 读 到 
对 象 的 最 新 值 。 例 如 ,进程 A 写 一 个 存储 对 象 ,如 果 对 象 上 后 续 没 有 更 新 操作 ,那么 最 终 
A,B,C 的 读 取 操作 都 会 读 取 到 A 写 入 的 值 。“ 不 一 致 性 窗口 ”的 大 小 依赖 于 交互 延迟 、 系 统 
的 负载 ,以 及 副本 个 数 等 。 


8.3 重要 数据 结构 和 算法 


分 布 式 存储 系统 中 存储 大 量 的 数据 ,同时 需要 支持 大 量 的 上 层 读 / 写 操作 ,为 了 实现 高 
吞吐 量 , 设 计 和 实现 一 个 良好 的 数据 结构 能 起 到 相当 大 的 作用 。 典 型 的 如 LSM 树 结构 ,为 
NoSQL 系统 对 外 提供 高 吞吐 量 提供 了 更 大 的 可 能 。 在 大 规模 分 布 式 系统 中 需要 查找 到 具 
体 的 数据 ,设计 一 个 良好 的 数据 结构 ,以 支持 快速 的 数据 查找 ,如 MemC3 中 的 Cuckoo 
Hash ,为 MemC3 在 读 多 写 少 负载 情况 下 极 大 地 减少 了 访问 延迟 ; HBase 中 的 Bloom Filter 
结构 ,用 于 在 海量 数据 中 快速 确定 数据 是 否 存 在 ,减少 了 大 量 的 数据 访问 操作 ,从 而 提高 了 
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总 体 的 数据 访问 速度 。 


因此 ,一 个 良好 的 数据 结构 和 算法 对 于 分 布 式 系统 来 说 有 着 很 大 的 作用 。 下 面 讲述 当 
前 大 数据 存储 领域 中 一 些 比较 重要 的 数据 结构 。 


8.3.1 Bloom Filter 


Bloom Filter 用 于 在 海量 数据 中 快速 查找 给 定 的 数据 是 否 在 某 个 集合 内 。 

如 果 想 判断 一 个 元 素 是 不 是 在 一 个 集合 内 ,一般 想到 的 是 将 集合 中 的 所 有 元 素 保存 起 
来 ,然后 通过 比较 确定 ,链表 、 树 、 散 列表 (又 叫 哈 希 表 , Hash Table) 等 数据 结构 都 是 这 种 思 
路 。 但 是 随 着 集合 中 元 素 的 增加 ,需要 的 存储 空间 越 来 越 大 ,同时 检索 速度 也 越 来 越 慢 ,上 
述 三 种 结构 的 检索 时 间 复 杂 度 分 别 为 O(n) 、O(logn) .O(n/k)。 

Bloom Filter 的 原理 是 当 一 个 元 素 被 加 入 集合 时 ,通过 A 个 散 列 函数 将 这 个 元 素 映射 
成 一 个 位 数组 中 的 人 个 点 ,把 它们 置 为 1。 检索 时 ,用 户 只 要 看 看 这 些 点 是 不 是 都 是 1 就 
(大 约 ) 知 道 集合 中 有 没有 它 了 : 如 果 这 些 点 有 任何 一 个 0, 则 被 检 元 素 一 定 不 在 ; 如 果 都 是 
1, 则 被 检 元 素 很 可 能 在 。 这 就 是 Bloom Filter 的 基本 思想 。 

Bloom Filter 的 高 效 是 有 一 定 代价 的 : 在 判断 一 个 元 素 是 否 属于 某 个 集合 时 ,有 可 能 会 
把 不 属于 这 个 集合 的 元 素 误 认为 属于 这 个 集合 。 因 此 ,Bloom Filter 不 适合 那些 “ 零 错误 ” 
的 应 用 场合 。 在 能 容忍 低 错误 率 的 应 用 场合 下 ,Bloom Filter 通过 极 少 的 错误 换取 了 存储 
空间 的 极 大 节省 。 

下 面具 体 来 看 Bloom Filter 是 如 何 用 位 数组 表示 集合 的 。 初 始 状态 时 如 图 8-5 所 示 ， 
Bloom Filter 是 一 个 包含 m 位 的 位 数组 ,每 一 位 都 置 为 0。 





0|10|0|01010101010101010 
图 8-5 Bloom Filter 初始 位 数组 


为 了 表达 S= (215 zs，… ,x,} 这 样 一 个 n 个 元 素 的 集合 ,Bloom Filter 使 用 个 相互 独 
立 的 哈 希 函数 (Hash Function) ,它们 分 别 将 集合 中 的 每 个 元 素 映射 到 {1,…,m} 的 范围 中 。 
对 任意 一 个 元 素 xz, 第 i 个 喻 希 函 数 映 射 的 位 置 h;(zx) 会 被 置 为 1(1 达 i 二 k)。 注 意 , 如 果 一 
个 位 置 多 次 被 置 为 1, 那么 只 有 第 一 次 会 起 作用 ,后 面 几 次 将 没有 任何 效果 。 在 图 8-6 中 ， 
k 二 3, 且 有 两 个 哈 希 函数 选中 同一 个 位 置 ( 从 左边 数 第 5 位 , 即 第 2 个 “1” 处 )。 
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图 8-6 Bloom Filter 哈 希 函数 


在 判断 y 是 否 属于 这 个 集合 时 ,对 y 应 用 & 次 哈 希 函数 ,如 果 所 有 h;(y) 的 位 置 都 是 
lO A ,那么 就 认为 y 是 集合 中 的 元 素 ,否则 就 认为 y 不 是 集合 中 的 元 素 。 图 8-7 中 的 
yi 就 不 是 集合 中 的 元 素 ( 因 为 mw 有 一 处 指向 了 0 D. y 或 者 属于 这 个 集合 ,或 者 不 属于 
这 个 集合 ,如 图 8-7 所 示 。 

这 里 举 一 个 例子 。 有 ALB 两 个 文件 ,各 存放 50 亿 条 URL, 每 条 URL 占用 64B, 内 存 
限制 是 4GB, 试 找 出 A、B 文 件 共同 的 URL。 如 果 是 3 个 乃至 个 文件 呢 ? 
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图 8-7 Bloom Filter 查找 


根据 这 个 问题 来 计算 一 下 内 存 的 占用 ,4GB 二 2*B, 大 概 是 43 亿 , 乘 以 8 大 概 是 340 亿 
比特 ,n= 二 50 亿 , 如 果 按 出 错 率 0.01 算 大 概 需要 650 亿 比 特 。 现 在 可 用 的 是 340 亿 , 相 差 并 
不 多 ,这 样 可 能 会 使 出 错 率 上 升 一 些 。 另 外 ,如 果 这 些 URL 和 IP 是 一 一 对 应 的 ,就 可 以 转 
换 成 IP ,这样 就 简单 多 了 。 





8.3.2 LSM Bt 


存储 引擎 和 了 BB 树 存储 引擎 一 样 ,同样 支持 增 \ 删 . 读 、 改 ,顺序 扫描 操作 ,而 且 可 通过 批 
量 存储 技术 规避 磁盘 随机 写 入 问题。 但 是 LSM 树 和 B 十 树 相 比 ,LSM 树 牺牲 了 部 分 读 性 
能 ,用 来 大 幅度 提高 写 性 能 。 

LSM 树 的 原理 是 把 一 棵 大 树 拆 分 成 棵 小 树 , 它 首先 写 和 内存 中 , 随 着 小 树 越 来 越 大 ， 
内 存 中 的 小 树 会 flush 到 磁盘 中 ,磁盘 中 的 树 定期 可 以 做 merge 操作 ,合并 成 一 棵 大 树 ,以 
优化 读 性 能 。 

对 于 最 简单 的 二 层 LSM 树 而 言 ,内存 中 的 数据 和 磁盘 中 的 数据 做 merge 操作 如 图 8-8 
所 示 。 











图 8-8 LSM 树 


之 前 存在 于 磁盘 的 叶子 节点 被 合并 后 , 旧 的 数据 并 不 会 被 删除 ,这 些 数 据 会 复制 一 份 和 
内 存 中 的 数据 一 起 顺序 写 到 磁盘 。 这 样 操作 会 有 一 些 空间 的 浪费 ,但 是 LSM 树 提供 了 一 
些 机 制 来 回收 这 些 空间 。 

磁盘 中 的 树 的 非 叶子 节点 数据 也 被 缓存 在 内 存 中 。 

数据 查找 会 首先 查找 内 存 中 的 树 ,如果 没有 查 到 结果 ,会 转 而 查找 磁盘 中 的 树 。 

为 什么 LSM 树 的 插入 数据 速度 比较 快 呢 ? 

(1) 插入 操作 首先 会 作用 于 内 存 , 由 于 内 存 中 的 树 不 会 很 大 ,因此 速度 快 。 

(2) 合并 操作 会 顺序 写 人 一 个 或 多 个 磁盘 页 , 比 随机 写 入 快 得 多 。 
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8.3.3 Merkle 哈 希 树 


Merkle Tree 是 由 计算 机 科学 家 Ralph Merkle 提出 的 ,并 以 他 本 人 的 名 字 来 命名 。 本 
书 将 从 数据 “完整 性 校 验 ”( 检 查 数 据 是 否 有 损坏 ) 的 角度 介绍 Merkle Tree. 


1. 哈 希 


























要 实现 完整 性 校 验 , 最 简单 的 方法 就 是 对 要 校 验 的 整个 一 一 
数据 文件 做 哈 希 运算 ,将 得 到 的 哈 希 值 发 布 在 网 上 , 当 把 数 ld 
据 下 载 后 再 次 运算 一 下 哈 希 值 ,如 果 运 算 结果 相等 ,就 表示 — 于 
下 载 过 程 中 文件 没有 任何 损坏 。 因 为 哈 希 的 最 大 特点 是 ,如 | 下 载 |- ie | — re 
果 输 入 数据 稍微 变 了 一 点 儿 , 那 么 经 过 哈 希 运算 ,得 到 的 哈 T 
希 值 将 会 变 得 完全 不 一 样 。 构 成 的 哈 希 拓扑 结构 如 图 8-9 = 
BR. — 
如 果 从 一 个 稳定 的 服务 器 上 进行 下 载 ,那么 采用 单个 哈 图 8-9 哈 希 拓扑 
希 进 行 校 验 的 形式 是 可 以 接受 的 。 
2. BAIR 


但 在 点 对 点 网 络 中 进行 数据 传输 时 ,如 图 8-10 所 示 , 我 们 会 同时 从 多 个 机 器 上 下 载 数 
据 , 而 其 中 很 多 机 器 可 以 认为 是 不 稳定 或 者 是 不 可 信和 的 ,这 时 需要 有 更 加 巧妙 的 做 法 。 在 实 
际 中 ,点 对 点 网 络 在 传输 数据 的 时 候 都 是 把 比较 大 的 一 个 文件 切 成 小 的 数据 块 。 这 样 的 好 
处 是 如 果 有 一 小 块 数据 在 传输 过 程 中 损坏 了 ,只 要 重新 下 载 这 一 个 数据 块 , 不 用 重新 下 载 整 
个 文件 。 当 然 ,这 要 求 每 个 数据 块 都 拥有 自己 的 哈 希 值 。 在 下 载 BT 的 时 候 , 在 下 载 真 正 的 
数据 之 前 用 户 会 先 下 载 一 个 哈 希 列表 。 这 时 有 一 个 问题 出 现 了 ,如 此 多 的 哈 希 ,我 们 怎么 保 
证 它们 本 身 都 是 正确 的 呢 ? 





8-10 m 


答案 是 我 们 需要 一 个 根 哈 希 , 如 图 8-11 所 示 ,把 每 个 小 块 的 哈 希 值 拼 到 一 起 ,然后 对 这 
个 长 长 的 字符 串 再 做 一 次 哈 希 运算 ,最 终 的 结果 就 是 哈 希 列表 的 根 哈 希 。 如 果 能 够 保证 从 
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一 个 绝对 可 信 的 网 站 拿 到 一 个 正确 的 根 哈 希 ,就 可 以 用 它 来 校 验 哈 希 列表 中 的 每 一 个 哈 希 
是 否 都 是 正确 的 ,进而 可 以 保证 下 载 的 每 一 个 数据 块 的 正确 性 。 





| Root Hash-hash(hash(B1 )+hash(B2)+hash(B3)+hash(B4)) J 























Root Hash ) 
( hash(BD) ] | hash(B2) ) | hash(B3) ) xs ) 
( Biockı 】 人 (Beckz】 (Block3)  ( Biock4 ) 
图 8-11 哈 希 流程 


3. Merkle Tree 结构 

在 最 底层 ,和 哈 希 列表 一 样 ,我 们 把 数据 分 成 小 的 数据 块 , 有 相应 的 哈 希 和 它 对 应 。 但 
是 往 上 走 , 并 不 是 直接 运算 根 哈 希 ,而 是 把 相 邻 的 两 个 哈 希 合并 成 一 个 字符 串 , 然 后 运算 这 
个 字符 串 的 喻 希 , 这 样 每 两 个 喻 希 组 合 得 到 了 一 个 “ 子 哈 希 ”。 如 果 最 底层 的 哈 希 总 数 是 单 
数 ,那么 到 最 后 必然 出 现 一 个 单 喻 希 , 对 于 这 种 情况 直接 对 它 进行 喻 希 运 算 , 所 以 也 能 得 到 
它 的 子 喻 希 。 于 是 往 上 推 ,依然 是 一 样 的 方式 ,可 以 得 到 数目 更 少 的 新 一 级 喻 希 , 最 终 必然 
形成 一 棵 倒 着 的 树 , 到 了 树 根 的 这 个 位 置 就 剩 下 一 个 根 喻 希 了 ,我 们 把 它 称 为 Merkle 


Root ,如 图 8-12 所 示 。 
hash(hash(B1)+hash(B2)) hash(hash(B3)+hash(B4)) 


人 (nashBD ) (hashB2 ) (hash(B3) ) (hash(B4) ) 














(Block1 ) (Block2 ) (Block3 } ( Block4 ) 





图 8-12 Merkle Tree 结构 


相对 于 Hash List. Merkle Tree 明显 的 一 个 好 处 是 可 以 单独 拿 出 一 个 分 支 来 对 部 分 数 
据 进行 校 验 , 这 是 哈 希 列表 所 不 能 比拟 的 方便 和 高 效 。 


8.3.4 Cuckoo 哈 希 


Cuckoo 哈 希 是 一 种 解决 Hash 冲突 的 方法 ,其 目的 是 使 用 简易 的 hash. 函数 来 提高 
Hash Table 的 利用 率 , 保 证 O(1) 的 查询 时 间 也 能 够 实现 hash key 的 均匀 分 布 。 

基本 思想 是 使 用 两 个 hash 函数 来 处 理 碰撞 ,从 而 每 个 key 都 对 应 到 两 个 位 置 。 

插入 操作 如 下 。 

CD 对 key 值 哈 希 .生成 两 个 hash key ffi: hash kl fl hash k2, 如 果 对 应 的 两 个 位 置 上 
有 一 个 为 空 ,直接 把 key 插入 即 可 。 

(2) 否则 , 任 选 一 个 位 置 ,把 key (HA ,把 已 经 在 那个 位 置 的 key 值 踢 出 。 
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(3) 被 踢 出 来 的 key 值 需要 重新 插入 ,直到 没有 key 被 跑 出 为 止 。 
其 查找 思路 与 一 般 哈 希 一 致 


Cuckoo Hash 在 读 多 写 少 的 负载 情况 下 能 够 快速 实现 数据 的 查找 。 


8.4 分布 式 文件 系统 


8.4.1 文件 存储 格式 


文件 系统 最 后 都 需要 以 一 定 的 格式 存储 数据 文件 ,常见 的 文件 系统 存储 布局 有 行 式 存 
储 、 列 式 存储 以 及 混合 式 存储 三 种 ,不 同 的 类 别 各 有 其 优 缺 点 和 适用 的 场景 。 在 目前 的 大 数 
据 分 析 系 统 中 , 列 式 存储 和 混合 式 存储 方 案 因 其 特殊 优点 被 广泛 采用 。 

1. 行 式 存储 


在 传统 关系 型 数据 库 中 , 行 式 存储 被 主流 关系 型 数据 库 广泛 采用 ,HDFS 文件 系统 也 采 
用 行 式 存储 。 在 行 式 存储 中 ,每 条 记录 的 各 个 字段 连续 地 存储 在 一 起 ,而 对 于 文件 中 的 各 个 
记录 也 是 连续 存储 在 数据 块 中 ,图 8-13 是 HDFS 的 行 式 存 储 布局 ,每 个 数据 块 除了 存储 一 
些 管理 元 数据 外 ,每 条 记录 都 以 行 的 方式 进行 数据 压缩 后 连续 存储 在 一 起 。 


关系 m 16Bytes Record 
A]B[]c]»p 















































Sync Number 
101 11 120 131 DnA 压缩 后 的 关 || 压缩 后 的 关 
102 112 122 132 | 上 一 ->| 存储 块 1 键 字 长 度 键 字 数据 
ES Dos EE] 压缩 后 的 值 长度 
104 114 124 134 存储 块 2 
1 压缩 后 的 值 数据 





存储 块 3 (101, 111, 121, 131) 
e (102, 112, 122, 132) 


( ——— ) 
(105, 115, 125, 135) 
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行 式 存储 对 于 大 数据 系统 的 需求 已 经 不 能 很 好 地 满足 ,主要 体现 在 以 下 几 个 方面 。 

1) 快速 访问 海量 数据 的 能 力 被 束缚 

行 的 值 由 响应 的 列 的 值 来 定位 ,这 种 访问 模型 会 影响 快速 访问 的 能 力 , 因 为 在 数据 访问 
的 过 程 中 引入 了 耗 时 的 输入 /输出 。 在 行 式 存储 中 ,为 了 提高 数据 处 理 能 力 ,一 般 通 过 分 区 
技术 来 减少 查询 过 程 中 数据 输入 /输出 的 次 数 , 从 而 缩短 响应 时 间 。 但 是 这 种 分 区 技术 对 海 
量 数据 规模 下 的 性 能 改善 效果 并 不 明显 。 

2) 扩展 性 差 

在 海量 规模 下 , 扩展 性 差 是 传统 数据 存储 的 一 个 致命 的 弱点 。 一 般 通过 向 上 扩展 
(Scale up) 和 向 外 扩展 (Scale out) 来 解决 数据 库 扩展 的 问题 。 向 上 扩展 是 通过 升级 硬件 来 
提升 速度 ,从 而 缓解 压力 ; 向 外 扩展 则 是 按照 一 定 的 规则 将 海量 数据 进行 划分 ,再 将 原来 集 
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中 存储 的 数据 分 散 到 不 同 的 数据 服务 器 上 。 但 由 于 数据 被 表示 成 关系 模型 ,从 而 难以 被 划 
分 到 不 同 的 分 片 中 等 原因 ,这 种 解决 方案 仍然 存在 一 定 的 局 限 性 。 

2. 列 式 存储 

与 行 式 存储 布局 对 应 , 列 式 存储 布局 实际 存储 数据 时 按照 列 对 所 有 记录 进行 垂直 划分 ， 
将 同一 列 的 内 容 连 续 存 放 在 一 起 。 简 单 的 记录 数据 格式 类 似 于 传统 数据 库 的 平面 型 数据 结 
构 ,一 般 采 取 列 组 (Column Group/Column Family) 的 方式 。 典 型 的 列 式 存储 布局 是 按照 记 
录 的 不 同 列 对 数据 表 进 行 垂直 划分 ,同一 列 的 所 有 数据 连续 存储 在 一 起 ,这 样 做 有 两 个 好 
处 ,一 个 好 处 是 对 于 上 层 的 大 数据 分 析 系 统 来 说 ,如 果 查 询 操作 只 涉及 记录 的 个 别 列 , 则 只 
需 读 取 对 应 的 列 内 容 即 可 ,其 他 字段 不 需要 进行 读 取 操作 ; 另 一 个 好 处 是 ,因为 数据 按 列 存 
储 , 所 以 可 以 针对 每 列 数据 采取 具有 针对 性 的 数据 压缩 算法 ,从 而 提升 压缩 率 。 但 是 列 式 存 
储 的 缺陷 也 很 明显 ,对 于 HDFS 这 种 按 块 存 储 的 模式 而 言 , 有 可 能 不 同 列 分 布 在 不 同 的 数 
据 块 ,所 以 为 了 拼合 出 完整 的 记录 内 容 , 可 能 需要 大 量 的 网 络 传输 ,导致 效率 低下 。 

采用 列 组 方式 存储 布局 可 以 在 一 定 程度 上 缓解 这 个 问题 ,也 就 是 将 记录 的 列 进行 分 组 ， 
将 经 常 使 用 的 列 分 为 一 组 ,这 样 即使 是 按照 列 式 来 存储 数据 ,也 可 以 将 经 常 联合 使 用 的 列 存 
储 在 一 个 数据 块 中 ,避免 通过 不 必要 的 网 络 传输 来 获取 多 列 数据 ,对 于 某 些 场景 而 言 会 较 大 
地 提升 系统 性 能 。 

在 HDFS 场景 下 ,采用 列 组 方式 存储 数据 如 图 8-14 所 示 , 列 被 分 为 三 组 ,A 和 B 分 为 
一 组 ,C 和 D 各 自 一 组 ,即将 列 划分 为 三 个 列 组 并 存储 在 不 同 的 数据 块 中 。 



































列 组 1 
—>— 
HDFS 块 
101, 111 列 组 3 
关系 102, 112 
A[B[cT[Db 103, 113 
101 1111121 1131 zt 











104 1141124 1134 
105 1151125 ! 135 列 组 2 


102 11211221132 mn 
103 11311231133 EN 



























































图 8-14 HDFS 列 式 存储 布局 


3. 混合 式 存储 
尽管 列 式 存储 布局 可 以 在 一 定 程度 上 缓解 上 述 的 记录 拼合 问题 ,但 是 并 不 能 彻底 解决 。 
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混合 式 存 储 布局 能 够 融合 行 式 和 列 式 存储 布局 的 优点 ,能 比较 有 效 地 解决 这 一 问题 。 

混合 式 存 储 布局 融合 了 行 式 和 列 式 存储 布局 的 优点 ,首先 将 记录 表 按照 行进 行 分 组 , 若 
干 行 划分 为 一 组 ,而 对 于 每 组 内 的 所 有 记录 ,在 实际 存储 时 按照 列 将 同一 列 内 容 连续 存储 在 
一 起 。 


8.4.2 Google 文件 系统 


GFS(Google File System, Google 文件 系统 ) 是 Google 公司 为 了 存储 百 亿 计 的 海量 网 
页 信息 而 专门 开发 的 文件 系统 。 在 Google 的 整个 大 数据 存储 与 处 理 技术 框架 中 ,GFS 是 
其 他 相关 技术 的 基石 , 既 提供 了 海量 非 结 构 化 数据 的 存储 平台 ,又 提供 了 数据 的 完 余 备份 、 
成 千 台 服务 器 的 自动 负载 均衡 以 及 失效 服务 器 检测 等 各 种 完备 的 分 布 式 存储 功能 。 

考虑 到 GFS 是 在 搜索 引擎 这 个 应 用 场景 下 开发 的 ,在 设计 之 初 就 定 下 了 几 个 基本 的 设 
计 原 则 。 

首先 ,GFS 采用 大 量 商 业 PC 来 构建 存储 集群 。PC 的 稳定 性 并 没有 很 高 的 保障 ,尤其 
是 大 规模 集群 ,每 天 都 有 机 器 宕 机 或 者 硬盘 故障 发 生 ,这 是 PC 集群 的 常态 。 因 此 ,数据 宛 
余 备 份 .故障 自动 检测 ,故障 机 器 自动 恢复 等 都 列 在 GFS 的 设计 目标 里 。 

其 次 ,GFS 中 存储 的 文件 绝 大 多 数 是 大 文件 ,文件 大 小 集中 在 100MB 到 几 GB 之 间 ,所 
以 系统 设计 应 该 对 大 文件 的 读 / 写 操作 做 出 有 针对 性 的 优化 。 

再 次 ,系统 中 存在 大 量 的 “追加 ? 写 操作 , 即 在 已 有 文件 的 末尾 追加 内 容 , 已 经 写 入 的 内 
容 不 做 更 改 ; 而 很 少 有 ”随机 ” 写 行为 , 即 在 文件 的 某 个 特定 位 置 之 后 写 人 数据 。 

最 后 ,对 于 数据 读 取 操 作 来 说 , 绝 大 多 数 操作 都 是 “顺序 ? 读 ,少量 的 操作 是 “随机 ? 读 , 即 
按照 数据 在 文件 中 的 顺序 一 次 读 人 大 量 数据 ,而 不 是 不 断 地 在 文件 中 定位 到 指定 位 置 读 取 
少量 数据 。 

在 下 面 的 介绍 中 可 以 看 到 ,GFS 的 大 部 分 技术 思路 都 是 围绕 以 上 几 个 设计 目标 提 
出 的 。 

在 了 解 GFS 整体 架构 之 前 首先 了 解 一 下 GFS 中 的 文件 和 文件 系统 。 在 应 用 开发 者 看 
来 ,GFS 文件 系统 类 似 于 Linux 文件 系统 中 的 目录 和 目录 下 的 文件 构成 的 树 状 结构 。 这 个 
树 状 结构 在 GFS 中 被 称 为 “GFS 命名 空间 ”, 同 时 ,GFS 提供 了 文件 的 创建 .删除 . 读 取 和 写 
入 等 常见 的 操作 接口 。 

上 文 说 到 ,GFS 中 大 量 存储 的 是 大 文件 ,文件 大 小 超过 几 GB 是 很 常见 的 。 虽 然 文件 大 
小 各 异 ,但 GES 在 实际 存储 的 时 候 首 先 将 不 同 大 小 的 文件 切割 成 固定 大 小 的 数据 块 , 每 一 
个 块 称 为 一 个 Chunk。 通 常 一 个 Chunk 的 大 小 设 定 为 64MB, 这 样 每 个 文件 就 是 由 若干 个 
固定 大 小 的 Chunk 构成 的 。 

GFS 以 Chunk 为 基本 存储 单位 ,同一 个 文件 的 不 同 Chunk 可 能 存储 在 不 同 的 
ChunkServer E. 每 个 ChunkServer 可 以 存储 来 自 于 不 同文 件 的 Chunk。 另 外 ,在 
ChunkServer 内 部 会 对 Chunk 进一步 切割 ,将 其 切割 为 更 小 的 数据 块 ,每 一 块 被 称 为 一 个 
Block。Block 是 文件 读 取 的 基本 单位 , 即 每 次 读 取 至 少 读 一 个 Block。 

图 8-15 显示 了 GFS 的 整体 架构 ,在 这 个 架构 中 , 主 节点 主要 用 来 做 管理 工作 ,负责 维 
护 GFS 命名 空间 和 Chunk 命名 空间 。 在 GFS 系统 内 部 ,为 了 能 识别 不 同 的 Chunk, 每 个 
Chunk 都 被 赋予 一 个 唯一 的 编号 ,所 有 Chunk 编号 构成 了 Chunk 命名 空间 。 由 于 GFS X 
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件 被 切割 成 了 Chunk , 主 节点 还 记录 了 每 个 Chunk 存储 在 哪 台 ChunkServer 上 ,以 及 文件 
和 Chunk 之 间 的 映射 关系 。 


































































应 用 程序 GFS 主 节点 
(文件 名 , Chunk 索 引 ) | 文件 命名 空间 2 obar 
GFS 客 户 端 pe PA chunk 2ef0 
(Chunk “ffi Chunk 位 置 ) AN / 
M 标注 : 
向 数据 块 服务 器 发 出 指令 一 数据 信息 
一 一 控制 信息 
数据 块 服务 器 状态 
(Chunk 句 柄 , 字 节 范围 ) 
GFS 数 据 块 服务 器 | GFS 数 据 块 服务 器 
Chunk 数 据 
Linux 文 件 系统 Linux 文 件 系统 
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PA 8-15 GFS 的 整体 架构 


在 GFS 架构 下 ,我 们 来 看 看 “GFS 客户 端 ? 是 如 何 读 取 数 据 的 。 

对 于 “GFS 客户 端 "来 说 ,应 用 开发 者 提交 的 数据 请 求 是 从 文件 file 中 的 位 置 P 开始 读 
取 大 小 为 工 的 数据 。GFS 在 收 到 这 种 请 求 后 会 在 内 部 做 转换 ,因为 Chunk 的 大 小 是 固定 
的 ,所 以 从 位 置 P 和 大 小 工 可 以 计算 出 要 读 的 数据 位 于 文件 file 的 第 几 个 Chunk 中 ,请 求 
被 转换 为 file Chunk 序号 的 形式 。 随 后 ,这 个 请 求 被 发 送 到 GFS 主 节点 ,通过 “ 主 服务 器 ” 
可 以 知道 要 读 的 数据 在 哪 台 ChunkServer 上 ,同时 可 以 将 Chunk 序号 转换 为 系统 内 唯一 的 
Chunk 编号 ,并 将 这 两 个 信息 传 回 “GFS 客户 端 ”。 

“GFS 客户 端 "知道 了 应 该 去 哪 台 ChunkServer 读 取 数 据 后 会 和 ChunkServer 建立 连 
接 , 并 发 送 要 读 取 的 Chunk 编号 以 及 读 取 范围 ,ChunkServer 接收 到 请 求 后 将 请 求 的 数据 
发 送 给 “GFS 客户 端 ", 如 此 就 完成 了 一 次 数据 读 取 的 工作 。 


8.4.3 HDFS 


Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 商业 硬件 上 的 分 布 式 文件 系统 。 
Hadoop 分 布 式 文件 系统 和 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 ,但 它 和 其 他 的 分 布 式 文 
件 系 统 的 区 别 也 是 很 明显 的 。HDFS 是 一 个 高 度 容错 性 的 系统 ,适合 部 署 在 廉价 的 机 器 上 。 
HDFS 能 提供 高 吞吐 量 的 数据 访问 ,非常 适合 大 规模 数据 集 上 的 应 用 。HDFS 在 最 开始 是 
作为 Apache Nutch 搜索 引擎 项 目的 基础 架构 开发 的 。HDFS 是 Apache Hadoop Core 项 
目的 一 部 分 。 

HDFS 采用 master/slave 架构 。 一 个 HDFS 集群 由 一 个 NameNode 和 一 定数 目的 
DataNode 组 成 。NameNode 是 一 个 中 心服 务 器 ,负责 管理 文件 系统 的 名 字 空 间 (namespace) 以 
及 客户 端 对 文件 的 访问 。 集 群 中 的 DataNode 一 般 是 一 个 服务 器 ,负责 管理 它 所 在 节点 上 


第 8 章 大 数据 存储 4 N 


的 存储 。HDFS 呈现 了 文件 系统 的 名 字 空 间 , 用 户 能 够 以 文件 的 形式 在 上 面 存储 数据 。 从 
内 部 看 , 一 个 文件 其 实 被 分 成 一 个 或 多 个 数据 块 , 这 些 块 存储 在 一 组 DataNode 上 。 
NameNode 执行 文件 系统 的 名 字 空 间 操作 ,比如 打开 、 关 闭 、 重 命名 文件 或 目录 。 它 也 负责 
确定 数据 块 到 具体 DataNode 节点 的 映射 。DataNode 负责 处 理 文件 系统 客户 端的 读 / 写 请 
求 。 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 ,删除 和 复制 。HDFS 架构 如 图 8-16 
所 示 。 


HDFS 架 构 
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图 8-16 HDFS 架构 


NameNode 和 DataNode 被 设计 成 可 以 在 普通 的 商用 机 器 上 运行 ,这 些 机 器 一 般 运 行 
着 GNU/Linux 操作 系统 。 

HDFS 采用 Java 语言 开发 ,因此 任何 支持 Java 的 机 器 都 可 以 部 署 NameNode 或 
DataNode。 由 于 采用 了 可 移植 性 极 强 的 Java 语言 ,使 得 HDFS 可 以 部 署 到 多 种 类 型 的 机 
器 上 。 一 个 典型 的 部 署 场景 是 一 台 机 器 上 只 运行 一 个 NameNode 实例 ,而 集群 中 的 其 他 机 
器 分 别 运 行 一 个 DataNode 实例 。 这 种 架构 并 不 排斥 在 一 台 机 器 上 运行 多 个 DataNode, {A 
是 这 样 的 情况 比较 少见 。 

客户 端 访 问 HDFS 中 文件 的 流程 如 下 。 

(1) 从 NameNode 获得 组 成 这 个 文件 的 数据 块 位 置 列表 。 

(2) 根据 位 置 列表 得 到 储存 数据 块 的 DataNode。 

(3) 访问 DataNode 获取 数据 。 

HDFS 保证 数据 存储 可 靠 性 的 机 理 如 下 。 

CD 元 余 副 本 策略 。 所 有 数据 都 有 副本 ,对 于 副本 的 数目 可 以 在 hdfs-site. xml 中 设置 
相应 的 副本 因子 。 

(2) 机 架 策略 。 采 用 一 种 "机 架 感知 ”相关 策略 ,一 般 在 本 机 架 存 放 一 个 副本 ,在 其 他 机 
架 再 存放 别 的 副本 ,这 样 可 以 防止 机 架 失 效 时 丢失 数据 ,也 可 以 提高 带宽 利用 率 。 

(3) 心跳 机 制 。NameNode 周期 性 地 从 DataNode 接收 心跳 信号 和 块 报告 ,没有 按时 发 
送 心跳 的 DataNode 会 被 标记 为 宕 机 ,不 会 再 给 任何 1/0 请 求 , 若 是 DataNode 失效 造成 副 
本 数量 下 降 ,并 且 低 于 预先 设置 的 阔 值 ,NameNode 会 检测 出 这 些 数据 块 , 并 在 合适 的 时 机 
进行 重新 复制 。 
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(4) 安全 模式 。NameNode 启动 时 会 先 经 过 一 个 “安全 模式 ”阶段 。 

(5) 校 验 和 。 客 户 端 获取 数据 通过 检查 校 验 和 发 现 数据 块 是 否 损坏 ,从 而 确定 是 否 要 
读 取 副 本 。 

(6) 回收 站 。 删 除 文件 会 先 到 回收 站 ,其 里 面 的 文件 可 以 快速 恢复 。 

(7) 元 数据 保护 。 映 像 文件 和 事务 日 志 是 NameNode 的 核心 数据 ,可 以 配置 为 拥有 多 
个 副本 。 

(8) 快照 。 支 持 存储 某 个 时 间 点 的 映像 ,需要 时 可 以 使 数据 重 返 这 个 时 间 点 的 状态 。 


8.5 分 布 式 数据 库 NoSOL 


NoSQL 泛 指 非 关 系 型 数据 库 , 相 对 于 传统 关系 型 数据 库 ,NoSQL 有 着 更 复杂 的 分 类 ， 
包括 KV 数据 库 、 文 档 数 据 库 、 列 式 数据 库 以 及 图 数据 库 等 。 这 些 类 型 的 数据 库 能 够 更 好 地 
适应 复杂 类 型 的 海量 数据 存储 。 


8.5.1 NoSQL 数据 库 概 述 


一 个 NoSQL 数据 库 提 供 了 一 种 存储 和 检索 数据 的 方法 ,该 方法 不 同 于 传统 的 关系 型 
数据 库 那 种 表格 形式 。NoSQL 形式 的 数据 库 从 20 世纪 60 年 代 后 期 开始 出 现 , 直 到 21 世 
纪 早 期 ,伴随 着 Web 2. 0 技术 的 不 断 发 展 ,其 中 以 互联 网 公司 为 代表 ,如 Google, Amazon, 
Facebook 等 公司 ,带动 了 NoSQL 这 个 名 字 的 出 现 。 目 前 NoSQL 在 大 数据 领域 的 应 用 非 
常 广 泛 ,应 用 于 实时 Web 应 用 。 

促进 NoSQL 发 展 的 因素 如 下 。 

(1) 简单 设计 原则 ,可 以 更 简单 地 水 平 扩展 到 多 机 器 集群 。 

(2) 更 细 粒 度 地 控制 有 效 性 。 

一 种 NoSQL 数据 库 的 有 效 性 取决 于 该 类 型 NoSQL 所 能 解决 的 问题 。 大 多 数 NoSQL 
数据 库 系 统 都 降低 了 系统 的 一 致 性 ,以 利于 有 效 性 、 分 区 容忍 性 和 操作 速度 。 当 前 制约 
NoSQL 发 展 的 很 大 部 分 原因 是 因为 NoSQL 的 低级 别 查 询 语言 .缺乏 标准 接口 以 及 当前 在 
关系 型 数据 的 投入 。 

目前 大 多 数 NoSQL 提供 了 最 终 一 致 性 ,也 就 是 数据 库 的 更 改 最 终 会 传递 到 所 有 节点 
上 。 表 8-3 是 当前 常用 的 NoSQL 列表 。 


表 8-3 常用 NoSQL 列表 











类 型 Ex A 
Key-Value Cache Infinispan, Memcached, Repcached, Terracotta, Velocity 
Key-Value Store Flare, Keyspace, RAMCloud, SchemaFree, Hyperdex, Aerospike 





Data-Structures Server | Redis 





Clusterpoint, Couchbase, CouchDB, DocumentDB, Lotus Notes. MarkLogic, 
MongoDB 


Document Store 








Object Database DB40O, Objectivity/DB, Perst, Shoal, ZopeDB 
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8.5.2 ”KV 数据 库 


KV 数据 库 是 最 常见 的 NoSQL 数据 库 形式 ,其 优势 是 处 理 速度 非常 快 ,缺点 是 只 能 通 
过 完全 一 致 的 键 (Key) 查 询 来 获取 数据 。 根 据 数 据 的 保存 形式 , 键 值 存储 可 以 分 为 临时 性 
和 永久 性 ,下 面 介 绍 两 者 兼 具 的 KV 数据 库 Redis。 

Redis 是 著名 的 内 存 KV 数据 库 , 在 工业 界 得 到 了 广泛 的 使 用 。 它 不 仅 支 持 基 本 的 数 
据 类 型 ,也 支持 列表 、 集 合 等 复杂 的 数据 结构 ,因此 拥有 较 强 的 表达 能 力 , 同 时 又 有 非常 高 的 
读 / 写 效率 。Redis 支持 主 从 同步 ,数据 可 以 从 主 服务 器 向 任意 数量 的 从 服务 器 上 同步 ,从 
服务 器 可 以 是 关联 其 他 从 服务 器 的 主 服务 器 ,这 使 得 Redis 可 以 执行 单 层 树 复制 。 由 于 完 
全 实现 了 发 布 /订阅 机 制 , 使 得 从 数据 库 在 任何 地 方 同步 树 时 可 订阅 一 个 频道 并 接收 主 服 务 
器 完整 的 消息 发 布 记录 。 同 步 对 读 取 操作 的 可 扩展 性 和 数据 元 余 很 有 帮助 。 

对 于 内 存 数据 库 而 言 , 最 为 关键 的 一 点 是 如 何 保证 数据 的 高 可 用 性 ,应 该 说 Redis 在 发 
展 过 程 中 更 强调 系统 的 读 / 写 性 能 和 使 用 便捷 性 ,在 高 可 用 性 方面 一 直 不 太 理 想 。 

如 图 8-17 所 示 , 系统 中 有 唯一 的 Master 
( 主 设备 ) 负 责 数 据 的 读 / 写 操作 ,可 以 有 多 个 
Slave( 从 设备 ) 来 保存 数据 副本 ,数据 副本 只 能 
读 取 不 能 更 新 。Slave 初次 启动 时 从 Master 获 
取 数 据 ,在 数据 复制 过 程 中 Master JE dE BILE 
的 , 即 同时 可 以 支持 读 / 写 操作 。Master 采取 快 
照 结 合 增 量 的 方式 记录 即时 起 新 增 的 数据 操 





读 


从 设备 1 





作 , 在 Slave 就 绪 之 后 以 命令 流 的 形式 传 给 从 设备 2 
Slave, Slave 顺序 执行 命令 流 , 这 样 就 达到 Slave 图 8-17 Redis 的 副本 维护 策略 


和 Master 的 数据 同步 。 

由 于 Redis 采用 这 种 异步 的 主 从 复制 方式 ,所 以 Master 接收 到 数据 更 新 操作 到 Slave 
更 新 数据 副本 有 一 个 时 间 差 ,如 果 Master 发 生 故 障 可 能 导致 数据 丢失 。 而 且 Redis 并 未 支 
持 主 从 自动 切换 ,如 果 Master 故障 ,此 时 系统 表现 为 只 读 , 不 能 写 入 。 由 此 可 以 看 出 Redis 
的 数据 可 用 性 保障 还 是 有 缺陷 的 ,那么 在 现 版 本 下 如 何 实现 系统 的 高 可 用 呢 ? 一 种 常见 的 
思路 是 使 用 Keepalived 结合 虚拟 IP 来 实现 Redis 的 HA 方案 。Keepalived 是 软件 路 由 系 
统 ,主要 目的 是 为 应 用 系统 提供 简洁 强壮 的 负载 均衡 方案 和 通用 的 高 可 用 方案 。 使 用 
Keepalived 实现 Redis 高 可 用 方案 如 下 。 

首先 在 两 台 ( 或 多 台 ) 服 务 器 上 分 别 安装 Redis 并 设置 主 从 。 

其 次 ,Keepalived 配置 虚拟 IP 和 两 台 Redis 服务 器 的 IP 的 映射 关系 ,这 样 对 外 统一 采 
用 虚拟 IP, 而 虚拟 TP 和 真实 IP 的 映射 关系 及 故障 切换 由 Keepalived 负责 。 当 Redis 服务 
器 都 正常 时 ,数据 请 求 由 Master 负责 ,Slave 只 需要 从 Master 复制 数据 ; 当 Master 发 生 故 
障 时 ,Slave 接管 数据 请 求 并 关闭 主 从 复制 功能 ,以 避免 Master 再 次 启动 后 Slave 数据 被 清 
掉 ; 当 Master 恢复 正常 后 ,首先 从 Slave 同步 数据 以 获取 最 新 的 数据 情况 ,关闭 主 从 复制 并 
恢复 Master 身份 ,与 此 同时 Slave 恢复 其 Slave 身份 。 通 过 这 种 方法 即 可 在 一 定 程 度 上 实 
BL Redis 的 HA. 
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8.5.3 列 式 数 据 库 


列 式 数据 库 基 于 列 式 存储 的 文件 存储 格局 . 兼 具 NoSQL 和 传统 数据 库 的 一 些 优点 , 具 
有 很 强 的 水 平 扩展 能 力 、 极 强 的 容错 性 以 及 极 高 的 数据 承载 能 力 ,同时 也 有 接近 于 传统 关系 
型 数据 库 的 数据 模型 ,在 数据 表达 能 力 上 强 于 简单 的 KV 数据 库 。 

下 面 以 BigTable 和 HBase 为 例 介绍 列 式 数据 库 的 功能 和 应 用 。 

BigTable 是 Google 公司 设计 的 分 布 式 数据 存储 系统 ,针对 海量 结构 化 或 半 结 构 化 的 
数据 ,以 GFS 为 基础 ,建立 了 数据 的 结构 化 解释 ,其 数据 模型 与 应 用 更 贴近 。 目 前 ， 
BigTable 已 经 在 超过 60 个 Google 产品 和 项 目 中 得 到 了 应 用 ,其 中 包括 Google Analysis、 
Google Finance, Orkut 和 Google Earth 等 。 

BigTable 的 数据 模型 本 质 上 是 一 个 三 维 映射 表 , 其 最 基础 的 存储 单元 由 行 主键 、 列 主 
键 . 时 间 构 成 的 三 维 主键 唯一 确定 。BigTable 中 的 列 主键 包含 两 级 ,其 中 第 一 级 被 称 为 “ 列 
ÍR” (Column Families) ,第 二 级 被 称 为 列 限定 符 (Column Qualifier) ,两 者 共同 构成 一 个 列 
的 主键 。 

在 BigTable 内 可 以 保留 随 着 时 间 变 化 的 不 同 版 本 的 同一 信息 ,这 个 不 同 版 本 由 “时 间 
戳 " 维 度 进行 区 分 和 表达 。 

HBase 是 一 个 开源 的 非 关 系 型 分 布 式 数 据 库 , 它 参 考 了 Google 的 BigTable 模型 ,实现 
的 编程 语言 为 Java。 它 是 Apache 软件 基金 会 的 Hadoop 项 目的 一 部 分 ,运行 于 HDFS 文 
件 系统 之 上 ,为 Hadoop 提供 类 似 于 BigTable 规模 的 服务 。 因 此 , 它 可 以 容错 地 存储 海量 
稀 玖 的 数据 。HBase 在 列 上 实现 了 BigTable 论文 提 到 的 压缩 算法 .内存 操作 和 布 降 过 滤器 
Bloom Filter, HBase 的 表 能 够 作为 MapReduce 任务 的 输入 和 输出 ,可 以 通过 Java API Æ 
访问 数据 ,也 可 以 通过 REST, Avro 或 者 Thrift 的 API 来 访问 。HBase 的 整体 架构 如 图 8-18 
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图 8-18 HBase 存储 架构 图 































































第 8 章 大 数据 存储 e 
HBase LLXIJE SC FECA 2 Kh ITAA R, fg 90 88 TEA E A f E 
的 存储 单元 称 为 元 素 BE 26 3E e Y n] — 03 AH A AS rh IE DR] CORE Bi BK, A 
K 8-4 所 示 。 
表 8-4 HBase 存储 结构 




















7 e AR | 列 “contents:” 列 “anchor:” 列 “mine:” 
t9 “anchor; cnnsi. com” “CNN” 
t8 “anchor:my. look. ca” | “CNN. com” 
“com. cnn, www” t6 “< html >...” “text/html” 
15 “<html >...” 
t3 “< html >...” 




















8.5.4 图 数据 库 


在 图 的 领域 并 没有 一 套 被 广泛 接受 的 术语 ,存在 着 很 多 不 同类 型 的 图 模型 。 但 是 ,有 人 
致力 于 创建 一 种 属性 图 形 模型 (Property Graph Model) ,以 期 统一 大 多 数 不 同 的 图 实现 。 
按照 该 模型 ,属性 图 里 信息 的 建 模 使 用 下 面 三 种 构造 单元 。 

(1) 节点 ( 即 顶点 ); 

(2) 关系 ( 即 边 ) ,具有 方向 和 类 型 (标记 和 标 向 ); 

(3) 节点 和 关系 上 面 的 属性 ( 即 特性 ) 。 

更 特殊 的 是 ,这 个 模型 是 一 个 被 标记 和 标 向 的 属性 多 重 图 。 被 标记 的 图 的 每 条 边 都 有 
一 个 标签 , 它 被 用 来 作为 那 条 边 的 类 型 。 有 向 图 允许 边 有 一 个 固定 的 方向 ,从 末 或 源 节点 到 
首 或 目标 节点 。 属 性 图 允许 每 个 节点 和 边 有 一 组 可 变 的 属性 列表 ,其 中 的 属性 是 关联 某 个 
名 字 的 值 , 简 化 了 图 形 结构 。 多 重 图 允许 两 个 节点 之 间 存 在 多 条 边 。 这 意味 着 两 个 节点 可 
以 由 不 同 边 连接 多 次 ,即使 两 条 边 有 相同 的 尾 . 头 和 标记 。 

图 8-19 是 一 个 被 标记 的 小 型 属性 图 。 

下 面 以 Neo4j 这 个 具体 的 图 数据 库 介绍 图 数据 库 的 特性 。Neo4j 是 基于 Java 开发 的 开 
源 图 数据 库 , 也 是 一 种 NoSQL 数据 库 。Neo4j 在 保证 对 数据 关系 的 良好 刻画 的 同时 还 支持 
传统 关系 型 数据 的 ACID 特性 ,并且 在 存储 效率 .集群 支持 以 及 失效 备 援 等 方面 都 有 着 不 错 
的 表现 。 

在 所 支持 的 数据 类 型 上 ,Neo4j 支持 两 种 数据 类 型 ,具体 结构 如 图 8-20 所 示 。 

CD 节点 。 节 点 类 似 于 E-R 图 中 的 实体 (Entity) ,每 个 实体 可 以 有 0 到 多 个 属性 ,这 些 
属性 以 Key-Value 对 的 形式 存在 ,并 且 对 属性 没有 类 别 要 求 ,也 无 须 提前 定义 。 另 外 ,还 允 
许 给 每 个 节点 打上 标签 ,以 区 别 不 同类 型 的 节点 。 

(2) 关系 。 关 系 类 似 于 ER 图 中 的 关系 (Relationship) ,一 个 关系 由 一 个 起 始 节点 和 一 
个 终止 节点 构成 。 另 外 和 node 一 样 , 关 系 也 可 以 有 多 个 属性 和 标签 。 

一 个 实际 的 图 数据 库 实 例如 图 8-21 所 示 。 

Neo4j 具有 以 下 特性 。 

CD 关系 在 创建 的 时 候 就 已 经 实现 了 ,因而 在 查询 关系 的 时 候 是 一 个 O(1) 的 操作 。 
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name-"lop" 
lang-"java" 







weight-0.4 





name-"marko" 
age-29 













name-"vadas" 
age-27 


name-"ripple" 
lang-"java" 





图 8-19 小 型 属性 图 


records records 
Relationships 


organize 


图 8-20 Neo4j 数据 类 型 
(2) 所 有 的 关系 在 Neo4j 中 都 是 同等 重要 的 。 


(3) 提供 了 图 的 深度 优先 搜索 .广度 优先 搜索 .最 短路 径 、 简 单 路 径 以 及 Dijkstra 等 
算法 。 


8.5.5 文档 数据 库 


文档 数据 库 中 的 文档 是 一 个 数据 记录 ,这 个 记录 能 够 对 包含 的 数据 类 型 和 内 容 进 行 “ 自 
我 描述 ”, 如 XML 文档 .HTML 文档 和 JSON 文档 。 下 面 是 一 个 以 JSON 为 存储 格式 的 文 
档 数据 库 实例 。 











have 
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Labeled Property Graph Data Model 
Person 
Author Bock Person 
name: John LA WROTE eid PURCHASED EE 
Carre ator, SO CIC date: 03-02-2011 i 
Spy 
PURCHASED 
date: 09-09-201 1 
PURCHASED 
Person date: 05-07-2011 
Author Person 
Bock 
name: a 
Graham WROTE title: Our Man amé: Alan 
Greene in Havana 
图 8-21 图 数据 实例 
{ 
"ID" :1， 
"NAME" : "SequoiaDB", 
"Tel" :{ 


"Office" :"123123", "Mobile" :"132132132" 
} 
"Addr" : "China, GZ" 
} 











可 以 看 到 ,数据 是 不 规则 的 ,每 一 条 记录 包含 所 有 有 关 “SequoiaDB” 的 信息 而 没有 任何 
外 部 的 引用 ,这 条 记录 就 是 “ 自 包含 "的 。 这 就 使 得 记录 很 容易 完全 移动 到 其 他 服务 器 ,因为 
这 条 记录 的 所 有 信息 都 包含 在 里 面 了 ,不 需要 考虑 还 有 信息 在 其 他 表 没 有 一 起 迁移 走 。 同 
时 ,因为 在 移动 过 程 中 只 有 被 移动 的 那 一 条 记录 (文档 ) 需 要 操作 而 不 像 关 系 型 中 每 个 有 联 
系 的 表 都 需要 锁 住 来 保证 一 致 性 ,这 样 ACID 的 保证 就 会 变 得 更 快速 , 读 / 写 的 速度 也 会 有 
很 大 的 提升 。 

文档 数据 库 中 的 模型 采用 的 是 模型 视图 控制 器 (MVC) 中 的 模型 层 ,每 个 JSON 文档 的 
ID 就 是 它 唯一 的 键 ,这 也 大 臻 相当 于 关系 型 数据 库 中 的 主键 。 在 社交 网 站 领域 ,文档 数据 
库 的 灵活 性 在 存储 社交 网 络 图 片 以 及 内 容 方 面 更 好 .同时 并 发 度 也 更 高 。 

下 面 以 MongoDB 这 种 文档 数据 库 为 例 讲述 文档 数据 库 在 实际 中 的 应 用 。 

MongoDB 是 一 款 跨 平台 、 面 向 文档 的 数据 库 。 用 它 创 建 的 数据 库 可 以 实现 高 性 能 、 高 
可 用 性 ,并 且 能 够 轻松 扩展 。MongoDB 的 运行 方式 主要 基于 两 个 概念 , 即 集合 (collection) 
与 文档 (document) 。 集 合 就 是 一 组 MongoDB 文档 。 它 相当 于 关系 型 数据 库 (RDBMS) 中 
的 表 这 种 概念 。 集 合 位 于 单独 的 一 个 数据 库 中 。 

(1) 集合 。 集 合 不 能 执行 模式 (schema) 。 一 个 集合 内 的 多 个 文档 可 以 有 多 个 不 同 的 字 
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段 。 一 般 来 说 ,集合 中 的 文档 都 有 着 相同 或 相关 的 目的 。 

(2) 文档 。 文 档 就 是 一 组 键 - 值 对 。 文 档 有 着 动态 的 模式 ,这 意味 着 同一 集合 内 的 文档 
不 需要 具有 同样 的 字段 或 结构 。 

MongoDB 创建 数据 库 采 用 use 命令 ,语法 格式 为 use DATABASE_NAME, 如 创建 一 
个 mydb 的 数据 库 : 


use mydb 


8.6 HBase 数据 库 搭建 与 使 用 


HBase 是 分 布 式 NoSQL 系统 ,可 扩展 的 列 式 数 据 库 , 支 持 随机 读 写 和 实时 访问 ,能 够 
存储 非常 大 的 数据 库 表 (billion 行 X millions 列 ) 。 下 面 简要 介绍 HBase 的 搭建 与 使 用 。 


8.6.1 HBase 伪 分 布 式 运行 

因为 HBase 是 运行 在 HDFS 的 基础 之 上 的 ,所 以 需要 先 启动 HDFS 集群 。 这 里 首先 
运行 的 是 HBase 伪 分 布 式 版 本 ,所 以 HDFS 也 采用 伪 分 布 式 版 本 。 

1. 启动 HDFS 集群 

HDFS 的 核心 配置 文件 hdfs-site. xml 如 图 8-22 所 示 。 


configuration 
prop 


s. replication-/name: 


/pr 


configura 





图 8-22 hdfs-site. xml 配置 文件 


格式 化 HDFS 文件 系统 ,输入 如 下 命令 : 





. /bin/hdfs namenode - format 





启动 HDFS 文件 系统 ,输入 如 下 命令 : 





./sbin/start - dfs. sh 











通过 网 页 形式 查看 ,如果 如 图 8-23 所 示 则 表明 启动 成 功 。 

2. 启动 ZooKeeper 

HBase 启动 需要 ZooKeeper 支持 ,使 用 最 简单 的 ZooKeeper 配置 ,下 载 ZooKeeper 的 
运行 包 , 下 载 地 址 为 http://www-us. apache. org/dist/zookeeper/zookeeper-3. 4. 9/。 

配置 ZooKeeper, 执 行 如 下 命令 : 








cp conf/zoo_sample. cfg conf/zoo. cfg 
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Overview ‘iocalhost:9000' (active) 








Started Tue May 30 10:48:20 EDT 2017 

Version: 273.rbaa91f7c6bcgcbgzbe5982de4719clcBafglecff 
Compiled: 2016-08-18T01:41Z by root from branch-27.3 
Cluster ID: CID-SOfdbab-9503-4b0f-a834-7ad212670 

Block Pool ID: 


BP-1290462913-1061.2.119-14961: 





1 


图 8-23 HDFS 集群 显示 页 面 
启动 ZooKeeper, 执 行 如 下 命令 : 





. /bin/zkServer. sh start 











3. 启动 HBase 集群 


F 4 HBase 运行 jar f. HBase 需要 与 Hadoop 兼容 ,这 里 Hadoop 的 版 本 是 2.7. 3. 
HBase 的 版 本 是 1. 2.4, 下 载 地 址 是 http://archive. apache. org/dist/hbase/1. 2.4/。 


配置 hbase-site. xml, 如 图 8-24 所 示 。 





图 8-24 hbase-site. xml 文件 配置 


启动 如 下 命令 ,运行 HBase 集群 : 





. /bin/start - hbase. sh 








利用 HBase 的 页 面 显示 ,查看 运行 状态 ,在 浏览 器 中 输入 服务 器 IP 地 址 加 上 端口 号 
6010, 显 示 如 图 8-25 所 示 。 


Master del119 


Region Servers 


: 
E =e EEN 


Num. Regions 
Tue May 30 1415.31 EDT 201 


Tot 


3 


图 8-25 HBase 伪 分 布 式 运行 状态 
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输入 如 下 命令 AA 





单 的 HBase 集群 操作 ,如 图 8-26 Bron 。 


hbase(main):001:0> list 
TABLE 

test_pseudo 

1 row(s) in 0.2080 seconds 


=> ["test_pseudo"] 

hbase(main):002:0» scan 'test pseudo 

ROW COLUMN«CELL 

rowl colum=cf:a, timestamp=1496157474978, value=micmiu.com 
1 row(s) in 0.1590 seconds 


hbase (main) :003:0> | 





图 8-26 HBase 伪 分 布 式 简单 操作 


8.6.2 HBase 分 布 式 运行 


现在 运行 HBase 分 布 式 版 本 ,HBase 分 布 式 版 本 与 伪 分 布 式 版 本 配置 过 程 差 不 多 ,也 
是 分 成 HDFS 启动 .ZooKeeper 启动 和 HBase 集群 启动 三 个 部 分 。 

1. HDFS 集群 启动 

这 里 一 共用 作 HDFS 集群 的 机 器 数目 为 4 台 , 一 台 当 作 NameNode 节点 ,其 他 三 台 当 
作 DataNode 节点 。 

如 图 8-27 所 示 , 是 HDFS 集群 的 hdfs-site. xml 配置 文件 。 





<configuration> 
<property> 
<name>dfs.namenode. se 
<value>20.0.1.122:9001</value> 
</property> 


s</name> 


<property> 
<name>dfs .namenode. rpc-address</name> 
<value>20.0.1.118:9000</value> 
</property> 


<property> 
<name>dfs.datanode.max. transfer. threads</name> 
«value»4096«/value» 
«/property» 


«property» 
<name>dfs.namenode.name.dir</name> 


<value>/mnt/disk1/hadoop/hdfs/name</value> 
</property> 





图 8-27 hdfs-site. xml 配置 文件 


启动 HDFS 集群 ,输入 如 下 命令 : 





. /sbin/start - dfs. sh 











利用 Web 界面 查看 HDFS 运行 状态 ,如 图 8-28 所 示 。 

2. 启动 ZooKeeper 

HBase 启动 需要 ZooKeeper 支持 ,配置 ZooKeeper, 修 改 zoo. cfg 文件 ,具体 配置 如 
图 8-29 所 示 。 

启动 ZooKeeper, 执 行 如 下 命令 : 
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图 8-28 HDFS 集群 运行 状态 


.119:2888:3888 
.2.120:2888:3888 





图 8-29 ZooKeeper 集群 配置 





/bin/zkServer. sh start 





3. 启动 HBase 集群 
配置 hbase-site. xml, 配 置 如 图 8-30 所 示 


<configuration> 

<property> 
<name>hbase. cluster.distributed</name> 
<value>t rue</value> 

</property> 

<property> 
<name>hbase. zookeeper. quorum</name> 
<value>10.61.2.118,10.61.2.119,10.61.2.120</value> 

</property> 

<property> 
<name>hbase. regionserver. lease. period</name> 
«value»240000«/value» 

</property> 

<property> 
<name>hbase. rpc. timeout</name> 
<va lue>280000</value> 

</property> 

<property> 
<name>zookeeper. session. timeout</name> 
<va lue>120000</value> 

</property> 

</configuration> 





图 8-30 hbase-site. xml 配置 文件 


启动 如 下 命令 ,运行 HBase 集群 








. /bin/start — hbase. sh 











利用 HBase 的 页 面 显 示 , 查 看 运行 状态 ,在 浏览 器 中 输入 服务 器 IP 地 址 加 上 端口 号 
6010 ,显示 如 图 8-31 所 示 。 
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图 8-31 HBase 集群 运行 状态 


8.7 大 数据 存储 技术 趋势 


目前 数据 在 不 断 产 生 , 需 要 存储 系统 提供 更 强 的 存储 能 力 以 及 更 高 的 检索 效率 。 当 前 
硬件 设备 的 成 本 不 断 下 降 ,如 内 存 成 本 在 不 断 降低 ,为 了 满足 高 并 发 低 延迟 的 需求 ,不 断 出 
现 新 的 内 存 存 储 系统 ,包括 RAMCloud、Mica、VoltDB 等 以 内 存 为 存储 介质 的 分 布 式 存储 
系统 。 因 此 ,以 内 存 为 存储 介质 的 分 布 式 存储 系统 将 是 以 后 的 一 个 发 展 方向 。 

其 次 ,当前 硬件 设备 的 性 能 不 断 提升 ,传统 的 单纯 只 考虑 软件 设计 原则 显然 不 适合 , 需 
要 结合 新 的 硬件 特性 来 做 加 速 和 重新 设计 新 的 分 布 式 存储 系统 ,比如 NVM 存储 介质 的 出 
现 ,在 设计 以 NVM 为 存储 介质 的 分 布 式 系 统 的 时 候 在 可 靠 性 方面 必然 与 易 失 型 内 存 有 显 
著 的 区 别 。 同 时 ,多 核 CPU ,高速 网 卡 等 都 需要 充分 发 挥 性 能 ,因此 软 / 硬 件 协同 也 是 分 布 
式 存储 系统 的 一 个 技术 趋势 。 

存储 系统 的 通用 性 和 针对 性 是 两 个 不 同 的 设计 选择 ,目前 大 多 数 存 储 系统 都 不 太 可 能 
满足 各 种 场景 ,比如 HDFS 分 布 式 文件 系统 是 针对 大 文件 存储 ,Facebook Haystack 是 针对 
小 文件 ,淘宝 的 TFS 也 是 针对 于 小 文件 存储 的 。 因 此 ,针对 性 是 分 布 式 存储 系统 的 发 展 
趋势 。 


习题 


. 简 述 数据 的 分 片 类 型 。 

. 简 述 LSM Tree 的 工作 原理 。 

. 分 布 式 文件 系统 存储 格式 有 哪儿 种 ? 分 别 阐述 。 

. 什么 叫 NoSQL? 它 与 关系 型 数据 库 有 什么 区 别 ? 简 述 NoSQL 的 使 用 场景 。 
. 数据 一 致 性 包含 哪 几 种 ? 各 自 有 什么 区 别 ? 


an fF wn — 


gO 
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9.1 CPU 多 核 和 POSIX Thread 


为 了 提高 任务 的 计算 处 理 能 力 , 下 面 分 别 从 硬件 和 软件 层面 研究 新 的 计算 处 理 能 力 。 

在 硬件 设备 上 ,CPU 技术 不 断 发 展 ,出 现 了 SMP( 对 称 多 处 理 器 ) 和 NUMA( 非 一 致 性 
内 存 访问 ) 两 种 高 速 处 理 的 CPU 结构 。 处 理 器 性 能 的 提升 给 大 量 的 任务 处 理 提供 了 很 大 
的 发 展 空 间 。 图 9-1 是 SMP 和 NUMA 结构 的 CPU,CPU 核 数 的 增加 带 来 了 计算 能 力 的 
提高 ,但 是 也 随 之 带 来 了 大 量 的 问题 需要 解决 ,比如 CPU 缓存 一 致 性 问题 `NUMA 内 存 分 
配 策略 等 ,目前 已 经 有 比较 不 错 的 解决 方案 。 





























































































































CPU CPU 内 存 
CPU CPU 总 线 
总 线 内 存 路 由 器 
CPU CPU 总 线 
CPU CPU 内 存 
(a) SMP 架 构 (b) NUMA 架 构 


图 9-1 SMP 和 NUMA 架构 CPU 
在 软件 层面 出 现 了 多 进程 和 多 线程 编程 。 进 程 是 内 存 资 源 管理 单元 ,线程 是 任务 调度 
单元 。 图 9-2 是 进程 和 线程 之 间 的 区 别 。 
总 的 来 说 ,线程 所 占用 的 资源 更 少 ,运行 一 个 线程 所 需要 的 资源 包括 寄存 器 、 栈 、 程 序 计 
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文件 
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für arrayB ud 
5 fury 
UNIX 进 程 UNIX 进 程 里 的 线程 
图 9-2 进程 与 线程 


数 器 等 。 早 期 不 同 厂 商 提 供 了 不 同 的 多 线程 编写 库 , 这 些 线程 库 差异 巨大 ,为 了 统一 多 种 不 
同 的 多 线程 库 ,共同 制定 了 POSIX Thread 多 线程 编程 标准 ,以 充分 利用 多 个 不 同 的 线程 
库 。 组 成 POSIX Thread 的 API 分 成 以 下 4 个 大 类 。 

CD 线程 管理 。 线 程 管理 主要 负责 线程 的 create, detach join 等 ,也 包括 线程 属性 的 查 
询 和 设置 。 

(2) mutexes。 处 理 同步 的 例 程 (routine) 称 为 mutex, mutex 提供 了 create, destroy, 
lock 和 unlock 等 函数 。 

(3) 条 件 变 量 。 条 件 变 量 主要 用 于 多 个 线程 之 间 的 通信 和 协调 。 

CD 同步 。 同 步 用 于 管理 读 / 写 锁 以 及 barriers, 


9.2 MPI 并行 计 算 框架 


MPI(Message Passing Interface, 消 息 传递 窗口 ) 是 一 个 标准 且 可 移植 的 消息 传递 系 
统 , 服 务 于 大 规模 的 并 行 计 算 。MPI 标准 定义 了 采用 C`C++、FORTRAN 语言 编写 程序 的 
函数 语法 和 语义 。 目 前 有 很 多 经 过 良好 测试 和 高 效率 的 关于 MPI 的 实现 ,广泛 采用 的 实现 
有 MPICH, Fifi] MPICH 为 例 展开 对 MPI 的 讲解 。 

MPICH 是 一 个 高 性 能 且 可 以 广泛 移植 的 MPI 实现 。 图 9-3 为 MPICH 的 架构 图 。 

如 图 9-3 所 示 , 应 用 程序 通过 MPI 结构 连接 到 MPICH 接口 层 ,图 中 的 ROMIO 是 
MPI-IO 的 具体 实现 版 本 ,对 应 MPI 标准 中 的 高 性 能 实现 。MPICH 包括 ADI3、CH3 
Device .CH3 Interface, Nemesis, Nemesis NetMod Interface, 

(D ADI3。ADI 是 抽象 设备 接口 (Abstract Device Interface). MPICH 通过 ADI3 接口 
层 隔 离 底 层 的 具体 设备 。 

(2) CH3 Device, CH3 Device 是 ADI3 的 一 个 具体 实现 ,使 用 了 相对 少数 目的 函数 功 
BE. 在 CH3 Device 实现 了 多 个 通信 channel, channel 提供 了 两 个 MPI 进程 之 间 传 递 数据 
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图 9-3 MPICH 架构 











的 途径 以 及 进程 通信 。 当 前 包括 两 个 channel. HJ Nemesis 和 Sock, 其 中 ,Sock 是 一 个 基于 
UNIX Socket 的 channel, mi Nemesis 支持 多 种 方法 ,不仅 局 限于 Socket 通信 。 

(3) CH3 Interface。CH3 Inferface 用 于 定义 访问 Nemesis 的 接口 规范 。 

(4) Nemesis, Nemesis 允许 两 个 MPI 进程 之 间 的 网 络 通信 采取 多 种 方法 ,包括 TCP. 
InfiniBand 等 。 


9.3 Hadoop MapReduce 


Hadoop 是 一 个 由 Apache 基金 会 开发 的 分 布 式 系统 基础 架构 。Hadoop 框架 最 核心 的 
设计 就 是 HDFS 和 MapReduce,HDFS 为 海量 的 数据 提供 了 存储 ,而 MapReduce 为 海量 的 
数据 提供 了 计算 。 

HDFS(Hadoop Distributed File System) 有 高 容错 性 的 特点 ,并 且 设 计 用 来 部 署 在 低廉 
的 硬件 上 ; 而 且 它 提 供 高 吞吐 量 来 访问 应 用 程序 的 数据 ,适合 有 着 超大 数据 集 的 应 用 程序 。 
HDFS 放宽 了 POSIX 的 要 求 ,可 以 用 流 的 形式 访问 文件 系统 中 的 数据 。 

MapReduce 是 Google 公司 提出 的 一 个 软件 框架 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 
行 运算 。“Map” 和 “Reduce” 的 概念 以 及 它们 的 主要 思想 都 是 从 函数 式 编程 语言 借 来 的 ,还 
有 从 矢量 编程 语言 借 来 的 特性 。 

当前 的 软件 实现 是 指定 一 个 Map 函数 ,用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 , 指 
定 并 发 的 Reduce 函数 ,用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 。 

处 理 流程 如 下 。 

(1) MapReduce 框架 将 应 用 的 输入 数据 切 分 成 M 个 模块 ,典型 的 数据 块 大 小 
为 64MB, 

(2) 具有 全 局 唯一 的 主 控 Master 以 及 若干 个 Worker. Master 负责 为 Worker 分 配 具 
体 的 Map 或 Reduce 任务 并 做 全 局 管理 。 

(3) Map 任务 的 Worker 读 取 对 应 的 数据 块 内 容 , 从 数据 块 中 解析 Key/Value 记录 数 
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据 并 将 其 传 给 用 户 自 定义 的 Map 函数 , Map 函数 输出 的 中 间 结 果 Key/Value 数据 在 内 存 
中 缓存 。 

(4) 缓存 的 Map 函数 产生 的 中 间 结 果 周 期 性 地 写 入 磁盘 ,每 个 Map 函数 中 间 结 果 在 写 
入 磁盘 前 被 分 割 函 数 切 市 成 R 份 ,R 是 Reduce 的 个 数 。 一 般 用 Key 对 R 进行 哈 希 取 模 。 
Map 函数 完成 对 应 数据 块 处 理 后 将 R 个 临时 文件 位 置 通知 Master. Master 再 转交 给 
Reduce 任务 的 Worker。 

(5) Reduce 任务 Worker 接 到 通知 时 将 Map 产生 的 M 份 数据 文件 pull 到 本 地 ( 当 且 
仅 当 所 有 Map 函数 完成 时 Reduce 函数 才能 执行 )。Reduce 任务 根据 中 间 数 据 的 Key 对 记 
录 进行 排序 ,相同 Key 的 记录 聚合 在 一 起 。 

(6) 所 有 Map, Reduce 任务 完成 ,Master 唤醒 用 户 应 用 程序 。 


9.4 Spark 


Spark 是 UC Berkeley AMP Lab 所 开源 的 类 Hadoop MapReduce 的 通用 的 并 行 计 算 
框架 ,Spark 基于 MapReduce 算法 实现 分 布 式 计算 ,拥有 Hadoop MapReduce 所 具有 的 优点 ; 
不 同 于 MapReduce 的 是 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ,从 而 不 再 需要 读 / 写 HDFS, 因 
此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 的 算法 。 

Spark 最 主要 的 结构 是 RDD(Resilient Distributed Datasets) , 它 表 示 已 被 分 区 .不 可 变 
的 并 能 够 被 并 行 操作 的 数据 集合 ,不 同 的 数据 集 格式 对 应 不 同 的 RDD 实现 。RDD 必须 是 
可 序列 化 的 。RDD 可 以 缓存 到 内 存 中 ,每 次 对 RDD 数据 集 操作 之 后 的 结果 都 可 以 存放 到 
内 存 中 ,下 一 个 操作 可 以 直接 从 内 存 中 输入 ,省 去 了 MapReduce 大 量 的 磁盘 1/0 操作 。 这 
很 适合 迭代 运算 比较 常见 的 机 器 学 习 算法 .交互 式 数 据 挖掘 。 

与 Hadoop KW. Spark 支持 单 节点 集群 或 多 节点 集群 。 对 于 多 节点 操作 ,Spark 可 以 
采用 自己 的 资源 管理 器 ,也 可 以 采用 Mesos 集群 管理 器 来 管理 资源 。Mesos 为 分 布 式 应 用 
程序 的 资源 共享 和 隔离 提供 了 一 个 有 效 平台 (参见 图 9-4) 。 该 设置 允许 Spark 与 Hadoop 
共存 于 节点 的 一 个 共享 池 中 。 
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图 9-4 Mesos 集群 管理 器 


9.5 数据 处 理 技术 发 展 


数据 处 理 从 早期 的 共享 分 时 单 CPU 操作 系统 处 理 到 多 核 并 发 处 理 , 每 台 计 算 机 设备 
的 处 理 能 力 在 不 断 增 强 , 处 理 的 任务 复杂 度 在 不 断 增 加 ,任务 的 处 理 时 间 在 不 断 减 少 。 
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然而 , 随 着 大 数据 技术 的 不 断 发 展 , 一 台 计 算 设 备 无 法 胜任 目前 大 数据 计算 的 庞大 的 计 
算 工作 。 为 了 解决 单 台 计算 机 无 法 处 理 大 规模 数据 计算 的 问题 ,连接 多 台 计 算 机 设备 整合 
成 一 个 统一 的 计算 系统 ,对 外 提供 计算 服务 。 早 期 Google 公司 的 分 布 式 计算 框架 
MapReduce 采用 的 思想 就 是 连接 多 台 廉 价 的 计算 设备 ,以 此 来 提供 进行 大 规模 计算 任务 的 
能 力 。 但 是 MapReduce 是 建立 在 磁盘 之 上 的 并 行 计算 框架 ,由 于 机 械 磁 盘 本 身 的 局 限 性 ， 
MapReduce 仍然 有 很 大 的 计算 延迟 。Spark 提出 了 把 计算 结果 存放 在 内 存 中 ,利用 内 存 作 
为 存储 介质 的 方法 极 大 地 缩短 了 系统 的 响应 时 间 ,降低 了 计算 任务 返回 结果 的 延迟 。 为 了 
满足 大 规模 机 器 学 习 计 算 任务 的 需求 ,也 设计 了 大 量 的 分 布 式 机 器 学 习 框 架 来 训练 机 器 模 
型 参数 ,比如 Parameter Server; 针对 图 计算 场合 ,Google 公司 设计 实现 了 Pregel 图 计算 框 
架 , 用 于 处 理 最 短路 径 、Dijstra 等 经 典 图 计算 任务 ; 为 了 满足 实时 计算 任务 需求 ,设计 实现 
了 流 计算 框架 ,比如 Spark Streaming, Storm, Flink 等 实时 计算 框架 。 

总 之 ,目前 处 理 技 术 在 往 大 规模 、 低 延迟 方向 发 展 ,内 存 空 间 的 扩大 以 及 内 存 存储 成 本 
的 降低 给 大 规模 数据 处 理 提供 了 极 好 的 发 展 契 机 。 


习题 
1. 简 述 CPU 技术 的 发 展 趋势。 


2. 简 述 MPICH 并 行 计算 框架 。 
3. 简 述 MapReduce 的 原理 。 
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10.1 Hadoop MapReduce 架构 


MapReduce 是 一 种 分 布 式 计算 框架 ,能 够 处 理 大 量 数据 ,并 提供 容错 、 可 靠 等 功能 , 运 
行 部 署 在 大 规模 计算 集群 中 。 

MapReduce 计算 框架 采用 主 从 架构 ,由 Client, JobTracker, TaskTracker 组 成 ,如 
图 10-1 所 示 。 
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图 10-1 MapReduce 架构 
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1. Client 


用 户 编写 MapReduce 程序 ,通过 Client 提交 到 JobTracker. H JobTracker 来 执行 具体 
的 任务 分 发 。Client 可 以 在 Job 执行 过 程 中 查看 具体 的 任务 执行 状态 以 及 进度 。 在 
MapReduce 中 ,每 个 Job 对 应 一 个 具体 的 MapReduce 程序 。 

2. JobTracker 


JobTracker 负责 管理 运行 的 TaskTracker 节点 ,包括 TaskTracker 节点 的 加 入 和 退 
出 ; 负责 Job 的 调度 与 分 发 ,每 一 个 提交 的 MapReduce Job 由 JobTracker 安排 到 多 个 
TaskTracker 节点 上 执行 ; 负责 资源 管理 ,在 当前 MapReduce 框架 中 每 个 资源 抽象 成 一 个 
slot ,利用 slot 资源 管理 执行 任务 分 发 。 

3. TaskTracker 


TaskTracker 节点 定期 发 送 心 跳 信息 给 JobTracker 节点 ,表明 该 TaskTracker 节点 运 
行 正常 。JobTracker 发 送 具体 的 任务 给 TaskTracker 节点 执行 。TaskTracker 通过 slot 资 
源 抽象 模型 ,汇报 给 JobTracker 节点 该 TaskTracker 节点 上 的 资源 使 用 情况 ,具体 分 成 了 
Map slot 和 Reduce slot 两 种 类 型 的 资源 。 

在 MapReduce 框架 中 ,所 有 的 程序 执行 最 后 都 转换 成 Task 来 执行 。Task 分 成 Map 
Task 和 Reduce Task, 这 些 Task 都 是 在 TaskTracker 上 启动 。 图 10-2 显示 了 HDFS 作为 
MapReduce 任务 的 数据 输入 源 ,每 个 HDFS 文件 切 分 成 多 个 Block ,以 每 个 Block 为 单位 同 
时 兼顾 Block 的 位 置信 息 , 将 其 作为 MapReduce 任务 的 数据 输入 源 ,执行 计算 任务 。 
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图 10-2 HDFS 作为 MapReduce 任务 数据 输入 源 


10.2 Hadoop MapReduce 与 高 性 能 计算 、 网 格 计算 的 区 别 


在 Hadoop 出 现 之 前 ,高 性 能 计算 和 网 格 计算 一 直 是 处 理 大 数据 问题 主要 的 使 用 方法 
和 工具 ,它们 主要 采用 消息 传递 接口 (Message Passing Interface, MPD 提供 的 API 来 处 理 
大 数据 。 高 性 能 计算 的 思想 是 将 计算 作业 分 散 到 集群 机 器 上 ,集群 计算 节点 访问 存储 区 域 
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网 络 SAN 系统 构成 的 共享 文件 系统 获取 数据 ,这 种 设计 比较 适合 计算 密集 型 作业 。 当 需 
要 访问 像 PB 级 别 的 数据 的 时 候 , 由 于 存储 设备 网 络 带宽 的 限制 ,很 多 集群 计算 节点 只 能 空 
闲 等 竺 数据。 而 Hadoop 却 不 存在 这 种 问题 ,由 于 Hadoop 使 用 专门 为 分 布 式 计算 设计 的 
文件 系统 HDFS ,在 计算 的 时 候 只 需要 将 计算 代码 推送 到 存储 节点 上 即 可 在 存储 节点 上 完 
成 数据 的 本 地 化 计算 ,Hadoop 中 的 集群 存储 节点 也 是 计算 节点 。 在 分 布 式 编程 方面 ,MPI 
属于 比较 底层 的 开发 库 , 它 赋予 了 程序 员 极 大 的 控制 能 力 , 但 是 却 要 程序 员 自 己 控制 程序 的 
执行 流程 、 容 错 功能 ,甚至 底层 的 套 接 字 通信 、 数 据 分 析 算 法 等 底层 细节 都 需要 自己 编程 实 
现 。 这 种 要 求 无 疑 对 开发 分 布 式 程序 的 程序 员 提 出 了 较 高 的 要 求 。 相 反 , Hadoop 的 
MapReduce 却 是 一 个 高 度 抽象 的 并 行 编程 模型 , 它 将 分 布 式 并 行 编程 抽象 为 两 个 原 语 操 
作 , 即 Map 操作 和 Reduce 操作 ,开发 人 员 只 需要 简单 地 实现 相应 的 接口 即 可 ,完全 不 用 考 
虑 底层 数据 流 、 容 错 、 程 序 的 并 行 执行 等 细节 。 这 种 设计 无 疑 大 大 降低 了 开发 分 布 式 并 行程 
序 的 难度 。 

网 格 计算 通常 是 指 通过 现 有 的 互联 网 ,利用 大 量 来 自 不 同 地 域 . 资 源 异 构 的 计算 机 空闲 
的 CPU 和 磁盘 来 进行 分 布 式 存储 和 计算 。 这 些 参 与 计算 的 计算 机 具有 分 处 不 同 地 域 资 
源 异 构 ( 基 于 不 同 平台 ,使 用 不 同 的 硬件 体系 结构 ,…… ) 等 特征 ,从 而 使 网 格 计算 和 
Hadoop 这 种 基于 集群 的 计算 相 区 别 。Hadoop 集群 一 般 构 建 在 通过 高 速 网 络 连 接 的 单一 
数据 中 心 内 ,集群 计算 机 都 具有 体系 结构 ,平台 一 致 的 特点 ,而 网 格 计算 需要 在 互联 网 接 入 
环境 下 使 用 ,网 络 带 宽 等 都 没有 保证 。 





10.3 MapReduce 工作 机 制 


MapReduce 计算 模式 的 工作 原理 是 把 计算 任务 拆 解 成 Map 和 Reduce 两 个 过 程 来 执 
行 ,具体 如 图 10-3 所 示 。 
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10-3 MapReduce 工作 机 制 


整体 而 言 ,一 个 MapReduce 程序 一 般 分 成 Map 和 Reduce 两 个 阶段 ,中 间 可 能 会 有 
Combine。 在 数据 被 分 割 后 通过 Map 函数 的 程序 将 数据 映射 成 不 同 的 区 块 ,分 配给 计算 机 
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集群 处 理 达 到 分 布 式 运算 的 效果 ,再 通过 Reduce 函数 的 程序 将 结果 汇 整 ,最 后 输出 运行 计 
算 结果 。 


10.3.1 Map 


在 进行 Map 计算 之 前 ,MapReduce 会 根据 输入 文件 计算 输入 分 片 (input split) ,每 个 输 
入 分 片 针对 一 个 Map 任务 ,输入 分 片 存储 的 并 非 数 据 本 身 , 而 是 一 个 分 片 长 度 和 一 个 记录 
数据 位 置 的 数组 ,输入 分 片 往往 和 HDFS 的 block( 块 ) 的 关系 很 密切 。 假 如 设 定 HDFS 的 
块 的 大 小 是 64MB, 如 果 输 入 三 个 文件 ,大 小 分 别 是 3MB, 65MB 和 127MB, 那么 
MapReduce 会 把 3MB 文件 分 为 一 个 输入 分 片 ,65MB 则 是 两 个 输入 分 片 ,127MB 也 是 两 个 
输入 分 片 。 换 名 话说, 如果 在 Map 计算 前 做 输入 分 片 调整 ,例如 合并 小 文件 ,那么 会 有 5 个 
Map 任务 将 执行 ,而 且 每 个 Map 执行 的 数据 大 小 不 均 , 这 也 是 MapReduce 优化 计算 的 一 个 
关键 点 。 

接着 是 执行 Map 函数 ,Map 操作 一 般 由 用 户 指定 。Map 函数 产生 输出 结果 时 并 不 是 
直接 写 人 到 磁盘 ,而 是 采用 缓冲 方式 写 入 到 内 存 中 ,并 对 数据 按 关键 字 进 行 预 排序 ,如 
图 10-3 所 示 。 每 个 Map 任务 都 有 一 个 环 状 内 存 缓冲 ,用 于 存储 Map 操作 结果 ,在 默认 情 
况 下 缓冲 区 大 小 为 100MB, 该 值 可 以 用 io. sort. mb 属性 修改 。 当 内 存 中 的 数据 增长 到 一 定 
比例 的 时 候 , 可 以 通过 io. sort. spill. percent 调整 参数 大 小 ,后 台 线 程 会 spill 到 磁盘 上 。 在 
写 磁 盘 的 过 程 中 ,数据 会 继续 写 到 内 存 缓冲 区 中 。 


10.3.2 Reduce 


执行 用 户 指定 的 Reduce 函数 ,输出 计算 结果 到 HDFS 集群 上 。Reduce 执行 数据 的 归 
并 ,数据 是 以 key,list(valuel ,value2…) 的 方式 存储 的 。 这 里 以 wordcount 的 例子 来 说 明 ， 
此 时 的 记录 应 该 是 hadoop,list(1) .hello,list(1.1) 、word,list(1) ,那么 结果 应 该 是 hadoop. 
list(1) .hello,list(2)、word,list(1) 。 


10.3.3 Combine 


Combine 是 在 本 地 进行 的 一 个 在 Map 端 做 的 Reduce 的 过 程 ,其 目的 是 提高 Hadoop 
的 效率 。 比 如 存在 两 个 以 hello 为 关键 字 的 记录 .直接 将 数据 交 给 下 一 个 步 又 处 理 ,所 以 在 
下 一 个 步 又 中 需要 处 理 两 条 hello. 1 的 记录 ,如 果 先 做 一 次 Combine, 则 只 需 处 理 一 次 
hello,2 的 记录 ,这 样 做 的 一 个 好 处 就 是 当 数据 量 很 大 时 可 以 减少 很 多 开销 (直接 将 
partition 后 的 结果 交 给 Reduce 处 理 , 由 于 TaskTracker 并 不 一 定 分 布 在 本 节点 ,过 多 的 宛 
余 记 录 会 影响 IO ,与 其 在 Reduce 时 进行 处 理 , 不 如 在 本 地 先进 行 一 些 优化 以 提高 效率 ) 。 


10.3.4 Shuffle 


Shuffle 描述 数据 从 Map task 输出 到 Reduce task 输入 的 这 段 过 程 。 

Map 端的 所 有 工作 结束 之 后 ,最 终生 成 的 这 个 文件 也 存放 在 TaskTracker 节点 的 本 地 
文件 系统 中 。 每 个 Reduce task 通过 RPC 从 JobTracker 那里 获取 Map task 是 否 完 成 的 信 
息 , 从 而 获知 某 个 TaskTracker 上 的 Map task 执行 完成 情况 .Reduce task 在 执行 之 前 的 工 
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作 就 是 不 断 地 拉 取 当前 Job 里 每 个 Map task 的 最 终结 果 , 然 后 对 从 不 同 地 方 拉 取 过 来 的 数 
据 不 断 地 做 merge, 最 终 形成 一 个 文件 作为 Reduce task 的 输入 文件 ,如 图 10-4 所 示 。 





























图 10-4 数据 从 Map 端 复制 到 Reduce 端 


Reducer 真正 运行 之 前 ,所 有 的 时 间 都 是 在 拉 取 数据 ,做 merge, 且 不 断 重复 地 做 。 下 
面 描述 Reduce 端的 Shuffle 细节 。 

(1) copy 过 程 。 其 用 于 简单 地 拉 取 数据 。Reduce 进程 启动 一 些 数据 复制 线程 (Fetcher)， 
通过 HTTP 方式 请 求 Map task 所 在 的 TaskTracker 获取 Map task 的 输出 文件 。 因 为 
Map task 早已 结束 ,这 些 文件 就 由 TaskTracker 存储 在 本 地 磁盘 中 。 

(2) merge 阶段 。 这 里 的 merge 如 Map 端的 merge 动作 ,只 是 数组 中 存放 的 从 不 同 
Map 端 复制 来 的 数值 。 复 制 来 的 数据 会 先 放 入 内 存 缓冲 区 中 ,这 里 的 缓冲 区 大 小 要 比 Map 
端的 更 为 灵活 , 它 基 于 JVM 的 heap size 设置 ,因为 在 Shuffle 阶段 Reducer 不 运行 ,所 以 应 
该 把 绝 大 部 分 的 内 存 都 给 Shuffle 使 用 。 这 里 需要 强调 的 是 ,merge 有 三 种 形式 , 即 内 存 到 
内 存 、 内 存 到 磁盘 、 磁 盘 到 磁盘 。 在 默认 情况 下 第 一 种 形式 不 启用 ,让 人 比较 困惑 。 当 内 存 
中 的 数据 量 达到 一 定 阅 值 时 就 启动 内 存 到 磁盘 的 merge。 与 Map 端 类 似 ,这 也 是 洲 写 的 过 
程 ,在 这 个 过 程 中 如 果 设 置 有 Combiner, 也 是 会 启用 的 ,然后 在 磁盘 中 生成 了 众多 的 游 写 文 
件 。 第 二 种 merge 方式 一 直 在 运行 ,直到 没有 Map 端的 数据 时 才 结 束 , 然 后 启动 磁盘 到 磁 
盘 的 merge 方式 生 成 最 终 的 那个 文件 。 

(3) Reducer 的 输入 文件 。 不 断 地 merge, 最 后 会 生成 一 个 “最 终 文件 ”"。 那 么 这 里 为 什 
么 加 引号 ? 因为 这 个 文件 可 能 存在 于 磁盘 上 ,也 可 能 存在 于 内 存 中 。 对 用 户 来 说 ,当然 希望 
将 它 存放 于 内 存 中 ,直接 作为 Reducer 的 输入 ,但 默认 情况 下 这 个 文件 是 存放 于 磁盘 中 的 。 
当 Reducer 的 输入 文件 已 定时 整个 Shuffle 才 最 终结 束 。 


10.3.5 Speculative Task 


MapReduce 模型 把 作业 拆 分 成 任务 ,然后 并 行 运行 任务 以 减少 运行 时 间 。 存 在 这 样 的 
计算 任务 , 它 的 运行 时 间 远 远 长 于 其 他 任务 的 计算 任务 ,减少 该 任务 的 运行 时 间 就 可 以 提高 
整体 作业 的 运行 速度 ,这 种 任务 也 称 为 “ 拖 后 腿 " 任 务 。 导 致 任务 执行 缓慢 的 原因 有 很 多 种 ， 
包括 软件 和 硬件 原因 ,比如 硬件 配置 更 新 迭代 ,MapReduce 任务 运行 在 新 旧 硬 件 设备 上 , 负 
载 不 均衡 ,任务 调度 的 局 限 导 致 每 个 计算 节点 上 的 任务 负载 差异 较 大 。 

为 了 解决 上 述 * 拖 后 腿 ? 任 务 导致 的 系统 性 能 下 降 问 题 , Hadoop 为 该 task 启动 
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Speculative Task ,与 原始 的 task 同时 运行 ,以 最 快运 行 结束 的 结果 返回 ,加 快 Job 的 执行 。 
当 为 一 个 task 启动 多 个 重复 的 task 时 ,必然 导致 系统 资源 的 消耗 ,因此 采用 Speculative 
Task 的 方式 是 一 种 以 空间 换 时 间 的 方式 。 

同时 启动 多 个 重复 的 task 会 加 速 系 统 资源 的 竞争 ,导致 Speculative Task 无 法 执行 。 
所 以 启动 一 个 Speculative Task 需要 在 一 个 Job 的 所 有 task 都 启动 完成 之 后 才 启 动 ,并 且 
针对 那些 运行 时 间 比 平均 运行 时 间 慢 的 任务 。 当 一 个 task 任务 完成 之 后 ,任何 正在 运行 的 
重复 的 任务 都 会 停止 。 总 体 来 讲 , Speculative Task 是 优化 MapReduce 计算 过 程 的 一 个 
方法 。 

在 Hadoop 中 启动 Speculative Task 的 配置 方法 如 下 。 





< property? 
< name > mapred. map. tasks. speculative. execution </name > 
« value» false </value> 
</property> 
< property» 
< name > mapred. reduce. tasks. speculative. execution «/name > 
<value > false </value> 
</property> 











在 实际 中 应 该 根据 具体 的 情况 选择 是 否 需 要 启动 Speculative Task. 因为 启动 
Speculative Task 是 一 种 加 剧 资 源 消耗 的 过 程 , 会 造成 系统 的 性 能 下 降 。 使 用 Speculative 
Task 的 目的 是 缩短 时 间 ,但 是 以 牺牲 集群 效率 为 代价 。 


10.3.6 任务 容错 


MapReduce 是 一 种 通用 的 计算 框架 ,有 着 非常 健壮 的 容错 机 制 ,容错 粒度 包括 
JobTracker、TaskTracker、Job、Task、Record 等 级 别 。 由 于 目前 Hadoop 还 是 单 Master 设 
计 , 在 一 个 集群 中 只 有 一 个 JobTracker, 一 旦 JobTracker 出 现 错误 往往 需要 人 工 介 和 ,但 
是 用 户 可 以 通过 一 些 参 数 进 行 控制 ,从 而 让 所 有 作业 恢复 运行 。TaskTracker 的 容错 则 
通过 心跳 检测 、 黑 名 单 、 灰 名 单机 制 对 失效 的 Task Tracker 节点 进行 及 时 处 理 达 到 容错 效 
果 。 同 时 ,Hadoop 还 可 以 通过 不 同 的 参数 配置 来 保证 Job, Task 以 及 Record 等 级 别 的 
容错 。 

用 户 的 一 个 MapReduce 作业 往往 是 由 很 多 任务 组 成 的 ,只 有 所 有 的 任务 执行 完毕 才 算 
是 整个 作业 成 功 。 对 于 任务 的 容错 机 制 ,MapReduce 采用 最 简单 的 方法 进行 处 理 , 即 “ 再 执 
行 ”, 也 就 是 说 对 于 失败 的 任务 重新 调度 执行 一 次 。 一 般 有 两 种 情况 需要 再 执行 。 

第 一 种 情况 : 如 果 是 一 个 Map 任务 或 Reduce 任务 失败 了 ,那么 调度 器 会 将 这 个 失败 
的 任务 分 配 到 其 他 节点 重新 执行 。 

第 二 种 情况 : 如 果 是 一 个 节点 死机 了 ,那么 在 这 台 死 机 的 节点 上 已 经 完成 运行 的 Map 
任务 及 正在 运行 中 的 Map 和 Reduce 任务 都 将 被 调度 重新 执行 ,同时 在 其 他 机 器 上 正在 运 
行 的 Reduce 任务 也 将 被 重新 执行 ,这 是 由 于 这 些 Reduce 任务 所 需要 的 Map 的 中 间 结 果 数 
据 因 为 那 台 失效 的 机 器 而 丢失 了 。 
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10.4 应 用 案例 


下 面 通过 WordCount, WordMean 等 几 个 例子 讲解 MapReduce 的 实际 应 用 ,编程 环境 
都 是 以 Hadoop MapReduce 为 基础 。 


10.4.1 WordCount 


WordCount 用 于 计算 文件 中 每 个 单词 出 现 的 次 数 ,非常 适合 采用 MapReduce 进行 处 
理 。 人 处 理 单词 计数 问题 的 思路 简单 ,在 Map 阶段 处 理 每 个 文本 split 中 的 数据 ,产生 word, 
1 这 样 的 键 - 值 对 ; 然后 在 Reduce 阶段 对 相同 的 关键 字 求 和 ,最 后 生成 所 有 的 单词 计数 。 
要 部 分 的 伪 代 码 如 下 ,详细 的 可 运行 代码 可 以 从 GitHub 上 下 载 (https://github. com/ 
alibook/alibook-bigdata. git) 。 

对 应 的 Map 端 代码 如 下 。 


E 


jl 








public static class TokenizerMapper 
extends Mapper < Object, Text, Text, IntWritable> { 
private final static IntWritable one - new IntWritable(1); 
private Text word - new Text(); 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException { 
StringTokenizer itr - new StringTokenizer(value. toString()); 
while (itr. hasMoreTokens()) ( 
word. set(itr.nextToken()); 
context.write(word, one); 


) 





对 应 的 Reduce 端 代码 如 下 。 





public static class IntSumReducer 
extends Reducer < Text, IntWritable, Text, IntWritable> { 
public void reduce(Text key, Iterable < IntWritable> values, 
Context context) throws IOException, InterruptedException( 
int sum = 0; 
for (IntWritable val : values) { 
sum += val.get(); 


} 


context. write(key, new IntWritable(sum) ); 











在 主 函 数 中 设置 该 WordCount Job 的 相关 环境 ,包括 输入 和 输出 、Map 类 和 Reduce 


类 ,如 下 所 示 。 
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job. 
job. 
job. 
job. 


job. 
job. 


Configuration conf - new Configuration(); 
Job job = Job.getInstance(conf, "word count"); 


setJarByClass(WordCount. class); 
setMapperClass(TokenizerMapper. class); 
setReducerClass(IntSumReducer. class); 
setCombinerClass(IntSumReducer. class); 


setOutputKeyClass(Text. class); 
setOutputValueClass(IntWritable.class); 


FileInputFormat. addInputPath(job, new Path(args[0])); 
FileOutputFormat. setOutputPath(job, new Path(args[1])); 


System. exit( job. waitForCompletion(true) ? 0 : 1); 








WordCount 运行 示意 图 如 图 10-5 所 示 。 


Map Output 


Hello, 1> 
«World, 1> 
<Bye, 1> 

<World, 1> 


<Hello, 1> 
<Hadoop, 1> 
<Bye, 1> 
<Hadoop, 1> 


<Bye, 1> 
<Hadoop, I> 
<Hello, 1> 

















<Hadoop, 1> 


MapReduce WordCount Example 


Internal Grouping 


<Bye~1, 1, 1> Reduce 


*Hadoop- 1.1.1.1»  |lReduce 


<Hello— 1, 1, 1> Reduce 





<World— 1, 1> Reduce 


HOUSE 


图 10-5 WordCount 运行 过 程 


在 终端 环境 中 运行 以 下 命令 。 








Reduce(K,V[]){ 
Int count=0; 
For each v in V 
count+=v; 
Collect(K, count); 
} 





Reduce Output 


<Bye, 3> 
<Hadoop, 4> 
<Hello, 3> 
<World, 2> 











bin/hadoop jar /home/user/hadoop - 0.0.1. jar alibook. hadoop. WordCount /user/hadoop/input / 
user/hadoop/output 








如 图 10-6 所 示 为 WordCount 运行 结果 ,运行 结果 产生 了 一 个 part-r-00000 文件 ,保存 
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图 10-6 WordCount 运行 结果 


10.4.2 WordMean 


下 面 对 WordCount 稍 做 修改 , 改 成 计算 所 有 文件 中 单 
是 单词 的 字符 个 数 。 现 在 HDFS 集群 中 有 大 量 的 文件 
平均 长 度 。 

其 处 理 也 可 以 采用 MapReduce 方式 ,计算 结果 最 后 以 HDFS 文件 的 方式 保存 ,保存 内 
容 格 式 为 两 行 数据 : 第 一 行 是 count, 个 数 键 - 值 对 ,为 统计 出 现 的 所 有 单词 个 数 ; 第 二 行 是 
length, 总 长 度 键 - 值 对 ,为 统计 文件 中 所 有 的 单词 长 度 。 然 后 从 HDFS 文件 中 
MapReduce 计算 结果 , 求 取 单词 长 度 的 平均 值 。 在 MapReduce 计算 过 程 中 ,Map 阶段 读 取 
每 个 文件 的 split 数据 ,生成 count,1 和 length ,单词 长 度 键 - 值 对 ;， Reduce 阶段 对 相同 的 
count 关键 字 和 length 关键 字 对 进行 求 和 。 下 面 是 Map 过 程 和 Reduce 过 程 的 代码 ,详细 
的 代码 可 以 从 GitHub 上 下 载 (https://github. com/alibook/alibook-bigdata. git) 。 

Map 端 对 应 的 代码 如 下 。 





词 的 平均 长 度 ,单词 长 度 的 定义 
要 统计 所 有 文件 中 所 出 现 单 词 的 














/ xx 

* Maps words from line of text into 2 key - value pairs; 

* one key- value pair for 

* counting the word, another for counting its length. 

*/ 

public static class WordMeanMapper extends Mapper < Object, Text, Text, LongWritable> { 
private LongWritable wordlen = new LongWritable(); 


/ xx 
* Emits 2 key- value pairs for counting the word and its 
* length. Outputs are (Text, LongWritable). 
* 
* (param value 
* This will be a line of text coming in from our input file. 
*/ 
public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer iter = new StringTokenizer(value. toString()); 
while (iter. hasMoreTokens()) ( 
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wordlen. set(iter.nextToken().length()); 
context.write(LENGTH, wordlen); 
context.write(COUNT, ONE); 





Reduce 端 对 应 的 代码 如 下 。 





/xx 
* Performs integer summation of all the values for each key. 
*/ 
public static class WordMeanReducer extends Reducer < Text, LongWritable, Text, LongWritable> { 
private LongWritable sum = new LongWritable(0); 


/** 
* Sums all the individual values within the iterator and writes 
* them to the same key. 


* 
* @param key 
* This will be one of 2 constants: LENGTH_STR or COUNT_STR. 
* @param values 
* This will be an iterator of all the values associated with that 
* key. 
*/ 
public void reduce(Text key, Iterable < LongWritable> values, Context context) 
throws IOException, InterruptedException { 
int theSum = 0; 
for (LongWritable value : values) { 
theSum += value. get(); 
} 
sum. set(theSum) ; 
context. write(key, sum); 





在 终端 运行 如 下 命令 : 





bin/hadoop jar /home/user/wordmean - 0.0.1. jar V alibook. wordmean. WordMean /user/hadoop/| 
input V /user/hadoop/wordmeanoutput 











上 述 命 令 表 示 在 文件 中 计算 单词 的 平均 长 度 , 计算 结果 输出 到 /user/hadoop/ 
wordmeanoutput 中 。 在 该 实验 中 采用 和 WordCount 同样 的 实验 数据 ,运行 结果 如 下 所 示 。 





The mean length is: 8.360264105642257 
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10.4.3 Grep 


还 是 进行 大 规模 文本 中 单词 的 相关 操作 ,现在 希望 提供 类 似 Linux 系统 中 Grep 命令 
的 功能 , 找 出 匹配 目标 串 的 所 有 文件 ,并 统计 出 每 个 文件 中 出 现 目 标 字 符 串 的 个 数 。 

仍然 采用 MapReduce 的 计算 方法 提取 出 匹配 目标 字符 串 的 所 有 文件 。 思 路 很 简单 ,在 
Map 阶段 根据 提供 的 文件 split 信息 、 给 定 的 每 个 字符 串 输出 filename, 1 这 样 的 键 - 值 对 信 
息 ; 然后 在 Reduce 阶段 根据 filename 对 Map 阶段 产生 的 结果 进行 合并 ,最 后 得 出 匹配 目 
标 串 的 所 有 文件 grep 信息 。 

下 面 是 对 应 的 Map 端 和 Reduce 端 代码 ,详细 的 可 运行 代码 从 GitHub 上 下 载 
(https://github. com/alibook/alibook-bigdata. git) 。 

Map 端 代码 如 下 。 





public static class GrepMapper extends Mapper < Object，Text，Text，IntWritable> { 


public void map(Object obj, Text text, Context context) 
throws IOException, InterruptedException { 
String pattern = context.getConfiguration().get("grep"); 


String str = text.toString(); 
Pattern r = Pattern. compile(pattern) ; 
Matcher matcher = r.matcher(str) ; 


while (matcher. find()) { 
FileSplit split = (FileSplit)context.getInputSplit(); 
String filename = split. getPath().getName(); 


context. write(new Text(filename), new IntWritable(1)); 
} 
} 
} 





Reduce 端 代码 如 下 。 





public static class GrepReducer extends Reducer < Text, IntWritable, Text, IntWritable> ( 


public void reduce(Text text, Iterable< IntWritable> values, Context context) 
throws IOException, InterruptedException( 
int sum = 0; 
Iterator < IntWritable> iterator = values. iterator(); 
while (iterator. hasNext()) { 
sum += iterator. next().get(); 


} 


context. write(text, new IntWritable(sum)); 


} 














第 10 章 Hadoop MapReduce 解 析 A 
ing 
V 


在 终端 运行 如 下 命令 : 





bin/hadoop jar /home/user/grep - 0.0.1. jar alibook. grep. Grep hadoop /user/hadoop/input / 
user/hadoop/grepoutput 











上 述 命令 是 在 所 有 输入 文件 中 找 出 匹配 Hadoop 字符 串 的 所 有 文件 ,并 将 计算 结果 输 
tH 8| /user/hadoop/grepoutput 目录 中 。 
该 命令 的 运行 结果 如 图 10-7 所 示 。 





图 10-7 Grep 运行 结果 


10.5 MapReduce 的 缺陷 与 不 足 


MapReduce 是 一 种 离线 处 理 框架 ,比较 适合 大 规模 的 离线 数据 处 理 。 在 实际 的 工作 环 
境 中 ,MapReduce 这 套 分 布 式 处 理 框架 常用 于 分 布 式 Grep、 分 布 式 排序 、Web 访问 日 志 分 
析 、 反 向 索引 构建 ,文档 聚 类 、 机 器 学 习 、 数 据 分 析 、 基 于 统计 的 机 器 翻译 和 生成 整个 搜索 引 
擎 的 索引 等 大 规模 数据 处 理工 作 。 但 是 MapReduce 在 实时 处 理性 能 方面 比较 薄弱 ,不 适合 
处 理事 务 或 者 单一 处 理 请 求 。 





习题 


. 简 述 MapReduce 架构 

. 简 述 MapReduce 与 网 格 计算 、 高 性 能 计算 之 间 的 区 别 。 

. 简 述 MapReduce 中 的 Shuffle 过 程 。 

. 在 MapReduce 中 为 什么 需要 建立 Speculative Task? 会 带 来 哪些 问题 ? 
. 简 述 MapReduce 的 不 足 。 


noe w o 


Spark fe Jr 





11.1 Spark RDD 


Spark 是 一 个 高 性 能 的 内 存 分 布 式 计 算 框架 ,具备 可 扩展 性 、 任 务 容 错 等 特性 。 每 个 
Spark 应 用 都 是 由 一 个 driver program 构成 ,该 程序 运行 用 户 的 main 函数 ,同时 在 一 个 集 
群 中 的 节点 上 运行 多 个 并 行 操作 。Spark 提供 的 一 个 主要 抽象 就 是 RDD (Resilient 
Distributed Datasets) ,这 是 一 个 分 布 在 集群 中 多 节点 上 的 数据 集合 ,利用 内 存 和 磁盘 作为 
存储 介质 ,其 中 ,内 存 为 主要 数据 存储 对 象 ,支持 对 该 数据 集合 的 并 发 操作 。 用 户 可 以 使 用 
HDFS 中 的 一 个 文件 来 创建 一 个 RDD, 可 以 控制 RDD 存放 于 内 存 中 还 是 存储 于 磁盘 等 永 
久 性 存储 介质 中 。 

RDD 的 设计 目标 是 针对 和 迭代 式 机 器 学 习 。 由 于 和 迭代 式 机 器 学 习 本 身 的 特点 ,每 个 
RDD 是 只 读 的 ,不 可 更 改 的 。 根 据 记 录 的 操作 信息 ,丢失 的 RDD 数据 信息 可 以 从 上 游 的 
RDD 或 者 其 他 数据 集 Datasets 创建 ,因此 RDD 提供 容错 功能 。 

有 两 种 方式 创建 一 个 RDD: 在 driver program 中 并 行 化 一 个 当前 的 数据 集合 ; 或 者 利 
用 一 个 外 部 存储 系统 中 的 数据 集合 创建 ,比如 共享 文件 系统 HDFS, 或 者 HBase, 或 者 其 他 
任何 提供 了 Hadoop InputFormat 格式 的 外 部 数据 存储 。 

1. 并 行 化 数据 集合 

并 行 化 数据 集合 (Parallelized Collection ) 可 以 在 driver program 中 调用 
JavaSparkContext's parallelize 方法 创建 ,复制 集合 中 的 元 素 到 集群 中 形成 一 个 分 布 式 的 数 
据 集 Distributed Datasets。 以 下 是 一 个 创建 并 行 化 数据 集合 的 例子 ,包含 数字 1 一 5: 





List < Integer> data = Arrays.asList(1, 2, 3, 4, 5); 
JavaRDD« Integer» distData = sc.parallelize(data); 
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一 旦 上 述 的 RDD 创建 ,分 布 式 数据 集 RDD 就 可 以 并 行 操作 了 。 例如 ,可 以 调用 
distData. reduce((a, b) — a + b) 对 列表 中 的 所 有 元 素 求 和 。 

2. 外 部 数据 集 

Spark 可 以 从 任何 Hadoop 支持 的 外 部 数据 源 创建 RDD, 包 括 本 地 文件 系统 、HDFS、 
Cassandra, HBase, Amazon S3 等 。 以 下 是 从 一 个 文本 文件 中 创建 RDD 的 例子 。 





JavaRDD« String» distFile = sc. textFile("data. txt"); 











一 旦 创建 ,distFile 就 可 以 执行 所 有 的 数据 集 操作 。 

RDD 支持 多 种 操作 ,分 为 下 面 两 种 类 型 。 

(1) transformation。 其 用 于 从 以 前 的 数据 集中 创建 一 个 新 的 数据 集 。 

(2) action。 其 返回 一 个 计算 结果 给 driver program, 

在 Spark 中 所 有 的 transformation 都 是 懒惰 的 (lazy) ,因为 Spark 并 不 会 立即 计算 结 
果 ,Spark 仅 记录 所 有 对 file 文件 的 transformation。 以 下 是 一 个 简单 的 transformation 的 
例子 。 





JavaRDD < String> lines = sc. textFile("data. txt"); 
JavaRDD« Integer» lineLengths = lines.map(s -> s.length()); 
int totalLength = lineLengths.reduce((a, b) ->a + b); 











利用 文本 文件 data. txt 创建 一 个 RDD, 然 后 利用 lines 执行 Map 操作 ,这 里 lines 其 实 
是 一 个 指针 ,Map 操作 计算 每 个 string 的 长 度 , 最 后 执行 reduce action, 这 时 返回 整个 文件 
的 长 度 给 driver program, 


11.2 Spark 与 MapReduce 对 比 


Spark 作为 新 一 代 的 大 数据 计算 框架 ,针对 的 是 迭代 式 计算 、 实 时 数据 处 理 ,要 求 处 理 
的 时 间 更 少 。 与 MapReduce 对 比 整体 反映 如 下 。 

CD 在 中 间 计 算 结 果 方 面 。Spark 要 求 计算 结果 快速 返回 ,处 理 任务 低 延 迟 ,因此 
Spark 基本 把 数据 存放 在 内 存 中 ,只 有 在 内 存 资源 不 够 的 时 候 才 写 到 磁盘 等 存储 介质 中 , 同 
时 用 户 可 以 指定 数据 是 否 缓存 在 内 存 中 ; 而 MapReduce 计算 过 程 中 Map 任务 产生 的 计算 
结果 存放 到 本 地 磁盘 中 ,由 后 面 需 要 计算 的 Reduce 任务 获取 。 

(2) 在 计算 模型 方面 。Spark 采用 DAG 描述 计算 任务 ,所 有 的 RDD 操作 最 后 都 采用 
DAG 描述 ,然后 优化 分 发 到 各 个 计算 节点 上 运行 ,因此 Spark 拥有 更 丰富 的 功能 ; 
MapReduce 则 只 采用 Map() 和 Reduce() 两 个 函数 ,计算 功能 比较 简单 。 

(3) 在 计算 速度 方面 。Spark 采用 内 存 作为 计算 结果 主要 存储 介质 ,而 MapReduce % 
用 本 地 磁盘 作为 中 间 结 果 存 储 介 质 ,因此 Spark 的 计算 速度 更 快 。 

(4) 在 容错 方面 。Spark 采用 了 和 MapReduce 类 似 的 方式 ,针对 丢失 和 无 法 引用 的 
RDD,Spark 采用 利用 记录 的 transformation ,采取 重新 做 已 做 过 的 transformation 。 
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(5) 在 计算 成 本 方面 。Spark 是 把 RDD 主要 存放 在 内 存 存储 介质 中 ,如 果 需 要 快速 地 
处 理 大 规模 数据 , 则 需要 提供 高 容量 的 内 存 ; 而 MapReduce 是 面向 磁盘 的 分 布 式 计算 框 
架 , 因 此 在 成 本 考虑 方面 ,Spark 的 计算 成 本 高 于 MapReduce 计算 框架 。 

(6) 在 简单 易 管理 方面 。 目 前 ,Spark 也 在 同一 个 集群 上 运行 流 处 理 、 批 处 理 和 机 器 学 
习 , 同 时 Spark 也 可 以 管理 不 同类 型 的 负载 。 这 些 都 是 MapReduce 做 不 到 的 。 





11.3. Spark 工作 机 制 


下 面 开始 深入 探讨 Spark 的 内 部 工作 原理 ,具体 包括 Spark 运行 的 DAG, Partition, E 
错 机 制 .缓存 管理 以 及 数据 持久 化 。 


11.3.1 DAG 工作 图 


应 用 程序 提交 给 Spark 运行 ,通过 生成 RDD DAG 的 方式 描述 Spark 应 用 程序 的 逻辑 。 

DAG 是 有 向 无 环 图 ,是 图 论 里 面 的 概念 ,可 以 用 图 G==V,E 来 描述 ,E 中 的 边 都 是 有 向 
边 ,顶点 之 间 构 成 依赖 关系 ,并 且 不 能 形成 环 路 。 当 用 户 运行 action 操作 的 时 候 ,Spark 调 
度 器 检查 RDD 的 lineage 图 ,生成 一 个 DAG ,最 后 根据 这 个 DAG 来 分 配 任务 执行 。 

为 了 Spark 更 加 高 效 地 调度 和 计算 ,RDD DAG 中 还 包括 宽 依 赖 和 窄 依赖 。 罕 依赖 是 
父 节点 RDD 中 的 分 区 最 多 只 被 子 节点 RDD 中 的 一 个 分 区 使 用 ; 而 宽 依赖 是 父 节点 RDD 
中 的 分 区 被 子 节点 RDD 中 的 多 个 子 分 区 使 用 ,如 图 11-1 所 示 。 
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如 图 11-1 描述 ,map 建立 的 RDD 中 的 每 个 分 区 Partition 只 被 子 节点 filter RDD 中 的 
一 个 子 分 区 使 用 ,所 以 是 窗 依 赖 ; 而 groupByKey 建立 的 RDD 多 个 子 分 区 Partition 引用 一 
个 父 节 点 RDD 中 的 分 区 。 

如 图 11-2 所 示 为 Spark 集群 中 一 个 应 用 程序 的 执行 ,生成 了 一 个 DAG。 

Spark 调度 器 根据 RDD 中 的 宽 依 赖 和 窒 依 赖 形成 stage 的 DAG, 如 图 11-2 所 示 。 每 
个 stage 是 包含 尽 可 能 多 的 窄 依赖 的 流水 线 transformation. 

采用 DAG 方式 描述 运行 逻辑 ,可 以 描述 更 加 复杂 的 运算 功能 ,也 有 利于 Spark 调度 器 
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图 11-2 Spark 应 用 程序 执行 


11.3.2 Partition 


Spark 执行 每 次 操作 transformation 都 会 产生 一 个 新 的 RDD, 每 个 RDD 是 Partition 
分 区 的 集合 。 在 Spark 中 ,操作 的 粒度 是 Partition 分 区 ,所 有 针对 RDD 的 map, filter 等 操 
作 , 最 后 都 转换 成 对 Partition 的 操作 ,每 个 Partition 对 应 一 个 Spark task。 

当前 支持 的 分 区 方式 有 hash 分 区 和 范围 (range) 分 区 。 


11.3.3 Lineage 容错 方法 


在 容错 方面 有 多 种 方式 ,包括 数据 复制 以 及 记录 修改 日 志 。 但 是 由 于 Spark 采用 DAG 
描述 driver program 的 运算 逻辑 ,因此 Spark RDD 采用 一 种 称 为 Lineage 的 容错 方法 。 

RDD 本 身 是 一 个 不 可 更 改 的 数据 集 ,Spark 根据 transformation 和 action 构建 它 的 操 
作 图 DAG, 因 此 当 执行 任务 的 Worker 失败 时 完全 可 以 通过 操作 图 DAG 获得 之 前 执行 的 
操作 ,进行 重新 计算 。 由 于 无 须 采 用 replication 方式 支持 容错 ,很 好 地 降低 了 跨 网 络 的 数据 
传输 成 本 。 

不 过 ,在 某 些 场景 下 Spark 也 需要 利用 记录 日 志 的 方式 来 支持 容错 。 针 对 RDD 的 
wide dependency, 最 有 效 的 容错 方式 同样 是 采用 checkpoint 机 制 。 当 前 ,Spark 并 没有 引入 
auto checkpointing 机 制 。 


11.3.4 内 存 管理 


旧版 本 Spark(1.6 之 前 ) 的 内 存 空间 被 分 成 了 三 块 独立 的 区 域 ,每 块 区 域 的 内 存 容 量 是 
按照 JVM 堆 大 小 的 固定 比例 进行 分 配 的 。 

(1) Execution。 在 执行 shuffle .join sort 和 aggregation Ilf . Execution 用 于 缓存 中 间 
数据 ,通过 spark. shuffle. memoryFraction 进行 配置 ,默认 为 0. 2. 

(2) Storage. Storage 主要 用 于 缓存 数据 块 以 提高 性 能 ,同时 也 用 于 连续 不 断 地 广播 或 
发 送 大 的 任务 结果 ,通过 spark. storage. memoryFraction 进行 配置 ,默认 为 0.6。 

(3) Other。 这 部 分 内 存 用 于 存储 运行 Spark 系统 本 身 需 要 加 载 的 代码 与 元 数据 ,默认 
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为 0.2。 

无 论 是 哪个 区 域 的 内 存 , 只 要 内 存 的 使 用 量 达 到 了 上 限 , 则 内 存 中 存储 的 数据 就 会 被 放 
入 到 硬盘 中 ,从 而 清理 出 足够 的 内 存 空间 。 这 样 ,由 于 和 执行 或 存储 相关 的 数据 在 内 存 中 不 
存在 ,就 会 影响 到 整个 系统 的 性 能 ,导致 /O 增长 ,或 者 重复 计算 。 

1. Execution 内 存 管 理 

Execution 内 存 进一步 为 多 个 运行 在 JVM 中 的 任务 分 配 内 存 。 与 整个 内 存 分 配 的 方 
式 不 同 ,这 块 内 存 的 再 分 配 是 动态 分 配 的 。 在 同一 个 JVM 下 ,如果 当前 仅 有 一 个 任务 正在 
执行 , 则 它 可 以 使 用 当前 可 用 的 所 有 Execution 内 存 。 

Spark 提供 了 以 下 Manager 对 这 块 内 存 进 行 管 理 。 

(1) ShuffleMemoryManager。 它 扮演 了 一 个 中 央 决 策 者 的 角色 ,负责 决定 分 配 多 少 内 
存 给 哪些 任务 。 一 个 JVM 对 应 一 个 ShuffleMemoryManager。 

(2) TaskMemoryManager。 它 记录 和 管理 每 个 任务 的 内 存 分 配 , 实 现 为 一 个 page 
table, 用 于 跟踪 堆 Cheap) 中 的 块 , 侦 测 异常 抛 出 时 可 能 导致 的 内 存 泄露 。 在 其 内 部 调用 了 
ExecutorMemoryManager 去 执行 实际 的 内 存 分 配 与 内 存 释 放 。 一 个 任务 对 应 一 个 
TaskMemoryManager, 

(3) ExecutorMemoryManager, HH FAES on-heap 和 off-heap 的 分 配 ,实现 为 弱 引 用 
的 池 允 许 被 释放 的 page 可 以 被 跨 任务 重用 。 一 个 JVM 对 应 一 个 ExecutorMemeoryManager。 

内 存 管理 的 执行 流程 大 致 如 下 。 

当 一 个 任务 需要 分 配 一 块 大 容量 的 内 存 用 于 存储 数据 时 ,首先 会 请 求 
ShuffleMemoryManager., $F M X 48 3E. XX 个 字 节 的 内 存 空 间 ”。 如 果 请 求 可 以 被 满足 , 则 
任务 就 会 要 求 TaskMemoryManager 分 配 X 个 字 节 的 空间 。 一 旦 TaskMemoryManager 更 
新 了 它 内 部 的 page table. 就 会 要 求 ExecutorMemoryManager 去 执行 内 存 空间 的 实际 
分 配 。 

这 里 有 一 个 内 存 分 配 的 策略 。 假 定 当前 的 active task 数据 为 N, 那 么 每 个 任务 可 以 从 
ShuffleMemoryManager 处 获得 多 达 1/N 的 执行 内 存 。 分 配 内 存 的 请 求 并 不 能 完全 得 到 保 
证 ,例如 内 存 不 足 , 这 时 任务 就 会 将 它 自 身 的 内 存 数据 释放 。 根 据 操作 的 不 同 , 任 务 可 能 重 
新 发 出 请 求 ,又 或 者 尝试 申请 小 一 点 儿 的 内 存 块 。 

2. Storage 的 存储 管理 

Storage 内 存 由 更 加 通用 的 BlockManager 管理 。 如 前 所 说 ,Storage 内 存 的 主要 功能 
是 用 于 缓存 RDD Partitions, 也 用 于 将 容量 大 的 任务 结果 传播 和 发 送 给 driver。 

Spark 提供 了 Storage Level 来 指定 块 的 存放 位 置 Memory, Disk 或 者 Off-Heap。 
Storage Level 还 可 以 指定 存储 时 是 否 按照 序列 化 的 格式 。 当 Storage Level 被 设置 为 
MEMORY AND DISK SER 时 ,内存 中 的 数据 以 字 节 数组 (byte array) 形 式 存储 , 当 这 些 
数据 被 存储 到 硬盘 中 时 ,不 再 需要 进行 序列 化 。 若 设置 为 该 Level, 则 evict 数据 会 更 加 
高 效 。 

到 了 1.6 版 本 ,Execution Memory 和 Storage Memory 之 间 支 持 跨 界 使 用 。 当 执行 内 
存 不 够 时 可 以 借用 存储 内 存 , 反 之 亦 然 。 
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11.3.5 数据 持久 化 


Spark 最 重要 的 一 个 功能 是 它 可 以 通过 各 种 操作 (Coperation) 持 久 化 (或 者 缓存 ) 一 个 集 
合 到 内 存 中 。 当 用 户 持久 化 一 个 RDD 的 时 候 , 每 一 个 节点 都 将 参与 计算 的 所 有 分 区 数据 
存储 到 内 存 中 ,并 且 这 些 数据 可 以 被 这 个 集合 (以 及 这 个 集合 衍生 的 其 他 集合 ) 的 动作 
(action) 重 复 利 用 。 这 个 能 力 使 后 续 的 动作 速度 更 快 (通常 快 10 信 以 上 )。 对 应 迭代 算法 和 
快速 的 交互 使 用 来 说 ,缓存 是 一 个 关键 的 工具 。 

用 户 能 通过 persist() 或 者 cache() 方 法 持久 化 一 个 RDD。 首 先 在 action 中 计算 得 到 
RDD; 然后 将 其 保存 在 每 个 节点 的 内 存 中 。Spark 的 缓存 是 一 个 容错 的 技术 ,如 果 RDD 的 
任何 一 个 分 区 丢失 , 它 可 以 通过 原 有 的 转换 (transformation) 操 作 自 动 地 重复 计算 并 且 创 建 
出 这 个 分 区 。 

此 外 ,用 户 可 以 利用 不 同 的 存储 级 别 存储 每 一 个 被 持久 化 的 RDD., 


11.4 数据 读 取 





Spark 支持 多 种 外 部 数据 源 来 创建 RDD, Hadoop 支持 的 所 有 格式 Spark 都 支持 。 
11.4.1 HDFS 


HDFS 是 一 个 分 布 式 文件 系统 ,其 目标 就 是 运行 在 廉价 的 服务 器 上 。HDFS 和 
Hadoop MapReduce 构成 了 一 整套 的 运行 环境 。Spark 可 以 很 好 地 支持 HDFS。 在 Spark 
下 要 使 用 HDFS 集群 中 的 文件 需要 更 改 对 应 的 配置 文件 ,把 Hadoop 中 的 hdfs-site. xml 和 
core-site. xml 复制 到 Spark 的 conf 目录 下 ,这样 就 可 以 像 使 用 普通 的 本 地 文件 系统 中 的 文 
件 一 样 使 用 HDFS 中 的 文件 了 。 


11.4.2 Amazon S3 


Amazon S3 提供 了 对 象 存储 服务 ,目前 使 用 广泛 。Spark 提供 了 针对 S3 的 文件 输入 服 
务 支持 。 为 了 可 以 在 Spark 应 用 中 读 取 和 存储 数据 到 S3 中 ,可 以 使 用 Hadoop 文件 API 
(SparkContext. hadoopFile、JavaHadoopRDD. saveAsHadoopFile, SparkContext. newAPIHadoopRDD 
和 JavaHadoopRDD. saveAsNewAPIHadoopFile)3E ift; RDD。 用 户 可 以 采用 以 下 方式 
来 做 Word Count 应 用 : 





Scala» val sonnets = sc.textFile("s3a://s3 - to- ec2/sonnets. txt") 

scala» val counts = sonnets.flatMap(line => line. split(" ")).map(word => (word, 1)). 
reduceByKey(_ + _) 

Scala» counts. saveAsTextFile("s3a://s3 - to- ec2/output") 











11.4.3 HBase 
HBase 是 一 个 列 数据 库 ,一 种 NoSQL. x $$ CRUD 操作 ,具有 高 容错 性 、 高 可 用 性 、 高 
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展 性 以 及 高 吞吐 量 等 特点 。Spark 也 支持 HBase 的 读 取 和 写 入 操作 。 在 采用 Spark 写 
HBase 的 过 程 中 需要 用 到 PairRDDFunctions. saveAsHadoopDataset; 在 采用 Spark 
HBase 中 的 数据 的 时 候 需 要 用 到 使 用 SparkContext 提供 的 newAPIHadoopRDDAPI 
的 内 容 以 RDDs 的 形式 加 载 到 Spark 中 。 


5 应 用 案例 


11.5.1 日 志 挖 气 


采用 Spark 针对 日 志文 件 进行 数据 分 析 。 根 据 Tomcat 日 志 计 算 URL 访问 情况 。 区 
统计 GET fl POST URL 访问 量 ,其 要 求 输出 结果 (访问 方式 .URL ,访问 量 )。 以 下 是 








的 测试 数据 集 样 例 。 
196.168.2.1 - - [03/Jul/2014:23:57:42 + 0800] "GET /html/notes/20140620/872. html HTTP/ 
1.0" 200 52373 0.034 
196.168.2.1 - - [03/Jul/2014:23:58:17 + 0800] "POST /service/notes/addViewTimes 900. htm 
HTTP/1.0" 200 2 0.003 
196.168.2.1 - - [03/Ju1/2014:23:58:51 + 0800] "GET /html/notes/20140617/888. html HTTP/ 


1.0" 200 70044 0.057 





为 了 达到 对 应 的 日 志 分 析 结 果 ,编写 以 下 Spark 代码 。 








//textFile() 加 载 数据 
val data = sc. textFile("/spark/seven. txt") 


//filter 过 滤 长 度 小 于 0, 过滤 不 包含 GET 与 POST 的 URL 
val filtered = data.filter( .length()» 0).filter( line => (line. indexOf("GET")» 0 | | line. 
indexOf("POST")» 0) ) 


// 转 换 成 键 值 对 操作 

val res = filtered.map( line => ( 

if(line. indexOf("GET")> 0){ // 截 取 GET 到 URL 的 字符 串 

(line. substring(line. indexOf ("GET"), line. indexOf("HTTP/1. 0") ). trim,1) 

Jelse( // 截 取 POST 到 URL 的 字符 串 


(line. substring(line. indexOf ("POST"), line. indexOf ("HTTP/1.0")).trim,1) 
}// 最 后 通过 reduceByKey 求 sum 
}). reduceByKey(_ + ) 


// fi & action 事件 执行 


res.collect() 








运行 结果 输出 样 例如 下 。 
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(POST /service/notes/addViewTimes 779.htm,1), 
(GET /service/notes/addViewTimes 900.htm,1), 
(POST /service/notes/addViewTimes 900.htm,1), 
(GET /notes/index- top - 3. htm, 1), 

(GET /htnl/notes/20140318/24. html, 1), 

(GET /html/notes/20140609/544. html, 1), 

(POST /service/notes/addViewTimes_542. htm, 2) 











11.5.2. 判别 西瓜 好 坏 


西瓜 是 一 种 人 们 都 很 喜欢 的 水 果 , 是 盛夏 季节 的 一 种 解 暑 物品 。 西 瓜分 为 好 瓜 和 坏 瓜 ， 
我 们 都 希望 购买 到 的 西瓜 是 好 的 。 这 里 给 出 判断 西瓜 好 坏 的 两 个 特征 ,一 个 特征 是 西瓜 的 
糖度 ,另外 一 个 特征 是 西瓜 的 密度 ,这 两 个 数值 都 是 0 一 1 的 小 数 。 每 个 西瓜 的 好 坏 用 数值 
来 表示 ,1 表示 好 瓜 ,0 表示 坏 瓜 。 基 于 西瓜 的 测试 数据 集 来 判断 西瓜 的 好 坏 。 

Spark 中 提供 了 MLib 机 器 学 习 库 ,使 用 MLib 机 器 学 习 库 中 提供 的 例子 ,采用 GBT 模 
型 ,训练 参数 ,最 后 利用 训练 集 测试 GBT 模型 的 好 坏 ,判断 西瓜 的 准确 度 。 

详细 的 代码 可 以 从 GitHub 上 下 载 (https://github. com/alibook/alibook-bigdata. git) ,下 
面 是 利用 Spark GBT 模型 的 代码 。 





object SparkGBT { 
def main (args: Array[String]) { 

if (args. length < 0) ( 
println("Usage:FilePath") 
sys. exit(1) 

) 

//Initialization 

val conf = new SparkConf().setAppName("Spark MLlib Exercise: GradientBoostedTree" ) 
val sc = new SparkContext(conf) 


// Load and parse the data file. 
val data = MLUtils. loadLibSVMFile(sc, "/home/user/workplace/scala_GBT/GBT_data. txt") 
// Split the data into training and test sets (30% held out for testing) 

val splits = data. randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 


// Train a GradientBoostedTrees model. 
// The defaultParams for Classification use LogLoss by default. 
val boostingStrategy = BoostingStrategy.defaultParams("Classification") 
boostingStrategy. numIterations = 10 // Note: Use more iterations in ,// practice. 
boost ingStrategy. treeStrategy. numClasses = 2 
boostingStrategy. treeStrategy. maxDepth = 3 
// Empty categoricalFeaturesInfo indicates all features are //continuous. 
boostingStrategy. treeStrategy. categoricalFeaturesInfo = Map[Int, Int]() 


val model = GradientBoostedTrees. train(trainingData, boostingStrategy) 


// Evaluate model on test instances and compute test error 
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val labelAndPreds = 


testData.map { point => 
val prediction - 


model. predict(point. features) 
(point.label, prediction) 


} 
val testErr = labelAndPreds. filter(r -» r. 1 != r. 2).count. toDouble / testData. count() 
println("Test Error = " + testErr) 
println("Learned classification GBT model:\n" + model. toDebugString) 
labelAndPreds. collect().foreach(x => 
println("Lable and Prediction: ”+ x._1.toString + "" + x. 2.toString)) 
trainingData. saveAsTextF ile("/home/user/workplace/scala_GBT/trainingData" ) 
testData. saveAsTextFile("/home/user /workplace/scala_GBT/testDat a") 








了 以 下 命令 ,在 具体 的 环境 中 需要 修改 对 应 的 文件 路 径 名 字 。 





build. sbt 


// 设置 好 sbt 
Sbt package exit 


// 运 用 sbt 将 文件 打包 


spark - 2.0.0 - bin- hadoop2.6/bin/spark- submit -- master local —- class SparkClustering 
target/scala- 2.11/sparkclustering 2.11 - 1.0. jar 


/hone/user/workplace/scala Clustering/cluster 


// 最 后 提交 到 spark 集群 上 运行 











测试 结果 及 运行 如 图 11-3 和 图 11-4 所 示 。 


Æ 11-3 GBT 测试 结果 





图 11-4 GBT 运行 数据 
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11.6 Spark 发 展 趋 势 


Spark 诞生 于 伯克利 AMP 实验 室 ,起 初 是 一 个 研究 性 质 的 项 目 , 目 标 是 为 迁 代 式 机 器 
学 习 提 供 帮 助 。 随 着 Spark 的 开源 ,因为 其 采用 内 存 存储 ,计算 速度 比 MapReduce 更 快 ,而 
F. Spark 简单 、. 易 用 ,受到 了 众多 人 的 关注 和 喜爱 。 目 前 Apache Spark 社区 非常 活跃 ,并 且 
以 Spark RDD 为 核心 ,逐步 形成 了 Spark 的 生态 圈 , 包 括 Spark SQL, Spark Streaming, 
Spark MLib 等 众多 上 层 数据 分 析 工 具 以 及 实时 处 理 框 架 。 

目前 ,Spark 已 经 在 国内 外 各 大 公司 使 用 ,包括 eBay, Yahoo! IBM、 阿 里 \ 百 度 、 腾 讯 等 
众多 公司 。 实 践 表 明 ,Spark 性 能 优越 ,各 大 公司 在 Spark 上 的 投入 也 比较 大 ,因此 Spark 
生态 也 在 不 断 完善 ,不 断 有 新 的 Spark 生态 圈 中 的 框架 出 现 ,包括 Tachyon 分 布 式 内存 文 
件 系 统 、SparkR 统计 框架 。 


习题 


.什么 是 Spark RDD? 简要 介绍 RDD 的 创建 方法 。 
. 什么 是 DAG? Spark 的 DAG 如 何 生 成 ? 

. MÆ Spark RDD 的 容错 方法 。 

. 简 述 Spark 的 内 存 管理 的 工作 原理 。 

.什么 是 Spark 的 分 区 Partition? 


an um D -— 
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12.1 流 计 算 概述 


在 传统 的 数据 处 理 流程 中 ,总 是 先 收集 数据 ,然后 将 数据 放 到 DB 中 。 当 人 们 需要 的 时 
候 通 过 DB 对 数据 做 查询 ,得 到 答案 或 进行 相关 的 处 理 。 这 样 看 起 来 虽然 非常 合理 ,但 是 结 
果 却 不 理想 ,尤其 是 对 一 些 实 时 搜索 应 用 环境 中 的 某 些 具体 问题 ,采用 类 似 于 MapReduce 
方式 的 离线 处 理 并 不 能 很 好 地 解决 问题 ,这 就 引出 了 一 种 新 的 数据 计算 结构 一 一 流 计算 方 
式 。 它 可 以 很 好 地 对 大 规模 流动 数据 在 不 断 变化 的 运动 过 程 中 实时 地 进行 分 析 , 捕 提 到 可 
能 有 用 的 信息 ,并 把 结果 发 送 到 下 一 计算 节点 。 

比较 早期 的 代表 系统 有 IBM 公司 的 System S, 它 是 一 个 完整 的 计算 架构 ,通过 Stream 
Computing 技术 可 以 对 stream 形式 的 数据 进行 实时 的 分 析 。 最 初 的 系统 拥有 大 约 八 百 个 
微 处 理 器 ,但 IBM 称 ,根据 需求 ,这 个 数字 也 有 可 能 上 万 。 研 究 者 讲 到 ,其 中 最 关键 的 部 分 
是 System S 软件 , 它 可 以 将 任务 分 开 , 比 如 分 为 图 像 识 别 和 文本 识别 ,然后 将 处 理 后 的 结果 
碎片 组 成 完整 的 答案 。IBM 实验 室 的 高 性 能 流 运 算 项 目的 负责 人 Nagui Halim 谈 道 : 
System S 是 一 个 全 新 的 运算 模式 , 它 的 灵活 性 和 速度 颇具 优势 。 与 传统 系统 相 比 , 它 的 方 
式 更 加 智能 化 ,可 以 适当 转变 ,以 适用 于 需要 解决 的 问题 。 

目前 流 式 计算 是 业界 研究 的 一 个 热点 ,最近 Twitter, LinkedIn 等 公司 相继 开源 了 流 式 
计算 系统 Storm, Kafka 等 ,Twitter 最 近 又 公布 了 新 的 流 式 计算 框架 Hron, 加 上 Yahoo! 
之 前 开源 的 S4, 流 式 计算 研究 在 互联 网 领域 持续 升温 。 不过, 流 式 计算 并 非 是 最 近 几 年 才 
开始 研究 ,传统 行业 ( 像 金 融 领 域 等 ) 很 早 就 已 经 在 使 用 流 式 计算 系统 ,比较 知名 的 有 


StreamBase、Borealis 等 。 
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12.2 流 计算 与 批 处 理 系统 对 比 


流 计算 侧重 于 实时 计算 方面 ,而 批 处 理 系统 侧重 于 离线 数据 处 理 方面 ; 一 个 追求 的 是 
MK ES ,另外 一 个 追求 的 是 高 吞吐 量 ; 处 理 的 数据 也 不 同 , 流 计算 处 理 的 数据 经 常 不 断 变 
化 ,而 离线 处 理 的 数据 是 静态 数据 ,输出 形式 也 不 同 。 总 体 来 讲 , 两 者 的 区 别 体现 在 以 下 几 
个 方面 。 

(1) 系统 的 输入 包括 两 类 数据 , 即 实 时 的 流 式 数据 和 静态 的 离线 数据 。 其 中 , 流 式 数据 
是 前 端 设备 实时 发 送 的 识别 数据 .GPS 数据 等 ,是 通过 消息 中 间 件 实现 的 事件 触发 推送 至 
系统 的 。 离 线 数据 是 应 用 需要 用 到 的 基础 数据 (提前 梳理 好 的 ) 等 关系 数据 库 中 的 离线 数 
据 , 是 通过 数据 库 读 取 接 口 获取 而 批量 处 理 的 系统 。 

(2) 系统 的 输出 也 包括 流 式 数 据 和 离线 数据 。 其 中 , 流 式 数 据 是 写 和 消息 中 间 件 的 指 
定数 据 队 列 缓存 ,可 以 被 异步 推送 至 其 他 业务 系统 。 离 线 数据 是 计算 结果 ,直接 通过 接口 写 
入 业务 系统 的 关系 型 数据 库 。 

(3) 业务 的 计算 结果 输出 方式 是 通过 两 个 条 件 决 定 的 。 一 是 结果 产生 的 频率 。 若 计算 
结果 产生 的 频率 可 能 会 较 高 , 则 结果 以 流 式 数据 的 形式 写 入 消息 中 间 件 (比如 要 实时 监控 该 
客户 所 拥有 的 标签 ,也 就 是 说 要 以 极 高 的 速度 被 返回 ,这 类 结果 以 流 式 数据 形式 被 写 入 消息 
中 间 件 )。 这 是 因为 数据 库 的 吞吐 量 很 可 能 无 法 适应 高 速 数 据 的 存 取 需求 。 二 是 结果 需要 
写 和 人 的 数据 库 表 规模 。 若 需要 插入 结果 的 数据 表 已 经 很 庞大 , 则 结果 以 流 式 数据 的 形式 写 
入 消息 中 间 件 , 待 应 用 层 程序 实现 相关 队列 数据 的 定期 或 定量 的 批量 数据 库 转 储 ( 比 如 宽 表 
异常 庞大 ,每 次 查询 数据 库 都 会 有 很 高 的 延迟 ,那么 就 将 结果 信息 暂时 存 入 中 间 件 层 , 在 晚 
些 时 候 再 定时 或 定量 地 进行 批量 数据 库 转 储 )。 这 是 因为 大 数据 表 的 读 取 和 写 入 操作 对 这 
秒 级 别 的 响应 时 间 仍 然 无 能 为 力 。 若 对 以 上 两 个 条 件 均 无 要 求 ,结果 可 以 直接 写 入 数据 库 
的 相应 表 中 。 





12.3 Storm 流 计算 系统 


Storm 是 一 个 Twitter 开源 的 分 布 式 、 高 容错 的 实时 计算 系统 。Storm 令 持 续 不 断 的 流 
计算 变 得 容易 ,弥补 了 Hadoop 批 处 理 不 能 满足 的 实时 要 求 。Storm 经 常用 于 实时 分 析 、 在 
线 机 器 学 习 、 持 续 计 算 、 分 布 式 远程 调用 和 ETL 等 领域 。Storm 的 部 署 管理 非常 简单 ,而 且 
在 同类 的 流 式 计 算 工 具 中 Storm 的 性 能 也 是 非常 出 众 的 。 

Storm 主要 分 为 Nimbus 和 Supervisor 两 种 组 件 。 这 两 种 组 件 都 是 快速 失败 的 ,没有 
状态 。 任 务 状 态 和 心跳 信息 等 都 保存 在 ZooKeeper 上 ,提交 的 代码 资源 都 在 本 地 机 器 的 硬 
盘 上 。 

CD Nimbus 负责 在 集群 里 面 发 送 代码 ,分 配 工作 给 机 器 ,并 且 监 控 状态 。 全 局 只 有 
一 个。 

(2) Supervisor 会 监听 分 配给 它 那 台 机 器 的 工作 .根据 需要 启动 /关闭 工作 进程 
Worker。 每 一 个 要 运行 Storm 的 机 器 上 都 要 部 署 一 个 ,并 且 按照 机 器 的 配置 设 定 上 面 分 配 
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的 槽 位 数 。 

(3) ZooKeeper 是 Storm 重点 依赖 的 外 部 资源 。Nimbus 和 Supervisor 其 至 实际 运行 
的 Worker 都 是 把 心跳 信息 保存 在 ZooKeeper 上 。Nimbus 也 是 根据 ZooKeeper 上 的 心跳 
信息 和 任务 运行 状况 进行 调度 和 任务 分 配 的 。 

(4) Storm 提交 运行 的 程序 称 为 Topology。 

(5) Topology 处 理 的 最 小 消息 单位 是 一 个 Tuple, 也 就 是 一 个 任意 对 象 的 数组 。 

(6) Topology 由 Spout 和 Bolt 构成 。Spout 是 发 出 Tuple 的 节点 。Bolt 可 以 随意 订阅 
某 个 Spout 或 者 Bolt 发 出 的 Tuple。Spout 和 Bolt 统称 为 Component, 

图 12-1 是 一 个 Topology 设计 的 逻辑 视图 ,图 12-2 是 Storm 集群 架构 。 
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图 12-1 Topology 设计 的 逻辑 图 
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12-2 Storm 集群 架构 


图 12-3 所 示 为 Storm 工作 流 。 

整体 的 Storm 工作 流 步骤 如 下 。 

(1) 在 初始 情况 下 ,Nimbus 等 待 客户 端 提交 Storm Topology。 

(2) 一 旦 一 个 Topology 提交 后 ,Nimbus 将 会 处 理 这 个 Topology ,安排 将 要 执行 的 所 
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图 12-3 Storm 工作 流 





Nimbus 2. 获取 心跳 
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(3) 一 旦 所 有 的 工作 节点 的 信息 都 收集 完成 ,Nimbus 将 分 发 所 有 的 任务 到 各 个 计算 节 


点 上 


Nimbus 该 Supervisor 正常 运行 。 
(5) 当 Supervisor 失效 时 ,没有 发 送 心跳 信息 给 Nimbus, 此 时 Nimbus 会 把 任务 赋 给 


其 他 Supervisor。 


(4) 在 一 定 的 时 间 间 隔 内 ,所 有 的 Supervisor 都 会 发 送 心跳 信息 给 Nimbus, 告诉 


(6) 当 Nimbus 失效 的 时 候 ,Supervisor 会 正常 运行 以 前 赋 给 该 Supervisor 的 任务 。 

(7) 一 旦 所 有 的 任务 都 完成 ,Supervisor 会 等 一 个 新 的 任务 发 送 过 来 。 

(8) 重新 启动 的 Nimbus 从 它 失 效 的 那个 地 方 继续 启动 。 类 似 地 ,重新 启动 的 
Supervisor 也 是 从 它 停止 的 地 方 继续 启动 。Storm 确保 所 有 的 任务 至 少 执行 一 次 。 

(9) 当 所 有 Topology 都 完成 的 时 候 , Nimbus 等 待 新 的 Topology 到 达 ; 同 理 ， 
Supervisor 也 是 类 似 。 


12.4 Samza 流 计算 系统 


Apache Samza 是 一 个 分 布 式 流 处 理 框架 。 它 使 用 Apache Kafka 用 于 消息 发 送 ,采用 
Apache Hadoop YARN 来 提供 容错 ,处 理 器 隔离 ,安全 性 和 资源 管理 ,专用 于 实时 数据 的 处 
理 ,非常 像 Twitter 的 流 处 理 系统 Storm, Samza 非常 适用 于 实时 流 数 据 处 理 的 业务 (如 同 
Apache Storm) ,如 数据 跟踪 \ 日 志 服 务 、 实 时 服务 等 应 用 , 它 能 够 帮助 开发 者 进行 高 速 消息 
处 理 , 同 时 还 具有 良好 的 容错 能 力 。 在 Samza 流 数 据 处 理 过 程 中 ,每 个 Kafka 集群 都 与 一 
个 能 运行 Yarn 的 集群 相连 并 处 理 Samza 作业 。 

Samza 由 以 下 三 层 构成 。 


(1) 数据 流 层 ; 
(2) 执行 层 ; 
(3) 处 理 层 。 
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整体 的 Samza 架构 是 通过 如 图 12-4 所 示 的 三 个 模块 完成 。 

(1) 数据 流 : 分 布 式 消息 中 间 件 Kafka. 

(2) 执行 : Hadoop 资源 调度 管理 系统 YARN. 

(3) 处 理 : Samza API。 

Samza 通过 使 用 YARN 和 Kafka 提供 一 个 阶段 性 的 流 处 理 和 分 区 的 框架 ,如 图 12-5 
所 示 ， 






























































Samza 
YARN ~ RM 
Client 
NM NM 
Samza Samza 
AM Task 
Runner 
ees Kafka Kafka 
YARN Kafka Broker Broker 
图 12-4 Samaa 的 功能 模块 图 12-5 Samza, YARN 和 Kafka 模块 之 间 互 动 


Samza 的 客户 端 使 用 YARN 来 运行 一 个 Samza 任务 (Job): YARN 启动 并 且 监 控 一 个 
或 者 多 个 Samza Container, 同 时 用 户 的 处 理 逻 辑 代码 (使 用 StreamTask API) 在 这 些 容 器 
里 运行 。 这 些 Samza 流 任务 的 输入 和 输出 都 来 自 Kafka 的 Broker( 通 常 它们 是 作为 YARN 
NM 位 于 同 台 机 器 ) 。 

进一步 来 说 ,第 一 个 任务 是 分 组 工作 通过 将 带 有 相同 userid 的 消息 发 送 到 一 个 中 间 话 
题 的 相同 分 区 里 ,用 户 可 以 通过 使 用 第 一 个 Tob 发 射 的 消息 里 的 userid 作为 key 来 实现 ,并 
且 这 个 key 被 映射 到 这 个 中 间 话 题 的 分 区 (通常 会 取 key 对 分 区 数目 取 余 )。 第 二 个 任务 处 
理 中 间 话 题 产生 的 消息 。 在 第 二 个 任务 里 每 个 任务 都 会 处 理 中 间 话 题 的 一 个 分 区 。 在 对 应 
分 区 中 任务 会 针对 每 一 个 userid 做 一 个 计数 器 ,并 且 每 次 任务 接收 带 着 一 个 特定 userid 的 
消息 时 对 应 的 计数 器 自 增 1 。 

Kafka 接收 到 第 一 个 Job 发 送 的 消息 把 它们 缓冲 到 硬盘 ,并 且 分 布 在 多 台 机 器 上 。 这 
有 助 于 系统 的 容错 性 提升 : 如 果 一 台 机 器 挂 了 ,没有 消息 会 被 丢失 ,因为 它们 被 存在 其 他 机 
器 里 。 并 且 如 果 第 二 个 Iob 因为 某 些 原 因 消 费 消息 的 速度 慢 下 来 或 者 停止 ,第 一 个 任务 也 
不 会 受到 影响 : 磁盘 缓冲 可 以 积累 消息 直到 第 二 个 任务 快 起 来 。 

通过 对 topic 分 区 ,将 数据 流 处 理 拆 解 到 任务 中 以 及 在 多 台 机 器 上 并 行 执行 任务 ,使 得 
Samza 具有 很 高 的 消息 吞吐 量 。 通 过 结合 YARN 和 Kafka.Samza 实现 了 高 容错 : 如 果 一 
个 进程 或 者 机 器 失败 , 它 会 自动 在 另 一 台 机 器 上 重启 并 且 继 续 从 消息 终端 的 地 方 开 始 处 理 ， 
这 些 都 是 自动 化 的 。 


12.5 集群 日 志文 件 实时 分 析 
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流 计算 适用 于 大 规模 实时 计算 分 析 , 使 用 的 生产 环境 包括 股票 市 场 分 析 、 证 券 、 传 感 器 
数据 分 析 等 ,也 可 以 用 于 实时 分 析 当 前 系统 的 运行 状态 。 目 前 分 布 式 系统 在 各 大 生产 系统 
中 广泛 使 用 ,监控 这 些 分 布 式 系统 产生 的 日 志 , 进 而 分 析 这 些 系 统 的 运行 状态 ,判断 集群 运 








行 是 否 正常 ,采用 流 计算 框架 实时 分 析 分 布 式 系统 产生 的 日 志 。 


下 面 以 分 析 HDFS 集群 运行 状态 来 简单 说 明 流 式 计算 框架 的 使 用 。HDFS 集群 由 三 
个 部 分 组 成 , 即 NameNode、DataNode 和 SecondaryNameNode。NameNode 保存 所 有 的 元 
数据 信息 ,以 及 管理 所 有 的 DataNode, 一 个 健康 和 正常 运行 的 NameNode 节点 对 于 一 个 正 
常 的 HDFS 集群 至 关 重 要 , 当 NameNode 出 现 故障 的 时 候 需要 及 时 报警 ,从 而 最 大 程度 地 
减少 损失 。 分 析 一 个 NameNode 节点 是 否 运行 正常 ,一 个 重要 的 方法 就 是 查看 NameNode 
的 日 志文 件 , 当 NameNode 的 运行 出 现 不 正常 情况 时 会 产生 WARN 和 ERROR 日 志 信息 。 

下 面 利用 Flink 做 简单 的 日 志文 件 单词 统计 分 析 , 分 析 一 个 时 间 段 内 NameNode 产生 
的 单词 统计 。 将 HDFS 集群 的 NameNode 产生 的 日 志文 件 重 定向 到 netcat 命令 ,生成 一 个 
文件 服务 器 。Flink 流 应 用 程序 接收 来 自 netcat 端的 文本 数据 ,然后 统计 单词 个 数 ,最 后 在 


一 个 具体 的 Flink 集群 节点 上 生成 运算 结果 并 显示 。 


Flink 基于 网 络 文本 数据 的 实时 单词 统计 分 析 代 码 , 详 细 的 可 运行 代码 可 以 从 GitHub 
上 下 载 (https://github. com/alibook/alibook-bigdata. git) ,以 下 是 部 分 代码 。 





public class SocketTextStream { 
public static void main(String[] args) throws Exception { 


if (!parseParameters(args)) ( 
return; 


) 
// set up the execution environment 
. getExecutionEnvironment(); 


// get input data 


DataStream < Tuple2 < String, Integer >> counts = 


// split up the lines in pairs (2 - tuples) containing: (word,1) 
text. flatMap(new Tokenizer()) 
// group by the tuple field "0" and sum up tuple field "1" 
-keyBy(0) 


.sum(1); 


if (fileOutput) ( 
counts. writeAsText(outputPath, WriteMode. NO OVERWRITE); 
) eise( 





final StreamExecutionEnvironment env - StreamExecutionEnvironment 


DataStream« String» text = env.socketTextStream(hostName, port, '\n', 0); 
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counts. print(); 


// execute program 
env. execute("WordCount from SocketTextStream Example"); 


J | EERE AEREE AEEA REE AEAEE AE AEK AEE R AEE K AEE K AEE AEE AEE K AEE K AEE AE AEE R AEE REER AEE EER EEEE EE E 


// UTIL METHODS 


J | EREEREER AEE AE RE AEAEE KEEK NEER AEE K AEE K AEE AEE K AEE K AEE K AEE AE AEE R AEE AEEA AEE EER AEE EEEE E 


private static boolean fileOutput = false; 
private static String hostName; 

private static int port; 

private static String outputPath; 


private static boolean parseParameters(String[] args) ( 


// parse input arguments 
if (args. length 3)t 
fileOutput - true; 
hostName - args[0]; 
port = Integer.valueOf(args[1]); 
outputPath - args[2]; 
) else if (args. length 
hostName - args[0]; 
port = Integer. valueOf(args[1]); 
} else { 
System. err. println( " Usage: SocketTextStreamWordCount < hostname > < port > 
[< outputpath>]") ; 
return false; 








2) { 


} 


return true; 


/x 
* Implements the string tokenizer that splits sentences into words * as a user - defined 
FlatMapFunction. The function takes a line * (String) and splits it into multiple pairs in| 
the form of "(word,1)" * (((Zcode Tuple2 < String, Integer >}). 
*/ 
public static final class Tokenizer implements FlatMapFunction < String, Tuple2 < String, 
Integer >> { 
private static final long serialVersionUID = 1L; 


public void flatMap(String value, Collector < Tuple2 < String, Integer >> out) 
throws Exception { 
// normalize and split the line 
String[] tokens = value. toLowerCase().split("\\W+"); 


// emit the pairs 
for (String token : tokens) { 
if (token. length() > 0) { 
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out.collect(new Tuple2 < String, Integer »(token, 1)); 








端 上 生成 文件 服务 器 ,在 HDFS 集群 的 NameNode 节点 的 终端 上 





首先 在 终 








tail - f hadoop - user - namenode - node144. log | nc — 1 12345 








上 面 的 hadoop-user-namenode-nodel44. log 为 HDFS 集群 NameNode 产生 的 日 志文 


件 ,12345 为 网 络 文件 传输 的 端口 号 。 
然后 将 利用 Maven 编译 好 的 jar 文件 在 Flink 上 运行 ,在 Flink 集群 节点 上 运行 以 下 
命令 








bin/flink run - c alibook.flink.SocketTextStream /home/user/flink— 0.0.1.jar nodel44 12345 








运行 结果 如 图 12-6 所 示 





图 12-6 SocketTextStream 任务 启动 
后 根据 Flink 的 Web 界面 查看 SocketTextStream 任务 ,找到 对 应 的 Flink 文本 统计 
,如 图 12-7 Stas. 





计算 
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图 12-7 Flink 查看 SocketTextStream 任务 
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然后 在 节点 nodel48 上 查看 具体 的 任务 一 一 单词 统计 情况 ,运行 结果 如 图 12-8 所 示 。 


isresourceavailable, 15 





图 12-8 SocketTextStream 单词 统计 运算 结果 


12.6 流 计算 发 展 趋势 


本 节 分 别 从 流 计算 技术 发 展 和 流 计算 应 用 趋势 两 个 方面 阐述 。 

在 流 计算 技术 发 展 方面 , 随 着 互联 网 技术 的 不 断 发 展 ,互联 网 产生 的 数据 不 断 增加 , 传 
统 的 离线 处 理 方 式 无 法 适用 于 不 断 变 化 的 数据 以 及 无 法 满足 数据 分 析 的 低 延迟 要 求 , 流 计 
算 框 架 可 以 很 好 地 适应 不 断 变 化 的 数据 以 及 实时 处 理 数据 。 为 了 满足 流 计算 的 实时 特性 ， 
目前 流 计算 框架 基本 上 把 大 规模 数据 存放 在 内 存 中 ,如 Spark Streaming、Flink 等 ; 主要 是 
目前 内 存 存储 容量 不 断 增 加 ,单位 存储 成 本 不 断 降低 ,内 存 存 取 访 问 速 度 在 纳 秒 级 别 。 因 此 
建立 以 内 存 为 基础 的 实时 计算 框架 是 流 计算 的 一 个 发 展 趋 势 

作为 一 个 通用 的 计算 框架 , 流 计算 框架 也 必须 提供 容错 机 制 ,提高 系统 可 靠 性 。 流 计算 
框架 应 该 提供 一 种 更 好 的 容错 机 制 , 传 统 的 批 处 理 采 用 的 是 以 重 做 的 方式 来 提供 容错 功能 ， 
但 是 该 方式 适合 于 短 任务 的 执行 ,并 不 能 很 好 地 适用 于 流 计算 框架 。 因 此 流 计算 框架 在 容 
错 性 方面 需要 提供 更 短 的 时 间 以 恢复 错误 的 计算 任务 

在 流 计 算 应 用 趋势 方面 ,目前 流 计算 框架 在 股票 分 析 、 传 感 器 数据 分 析 、 智 能 交通 数据 分 
析 等 领域 不 断 发 展 ,同时 也 在 在 线 学 习 方 面 不 断 取 得 进步 ,并 不 断 扩展 到 其 他 实时 分 析 领 域 。 













习题 


. 简 述 流 计算 和 批 处 理 系 统 的 区 别 。 

简 述 Storm 流 计算 框架 的 架构 以 及 Storm 集群 工作 流 状态 。 

简 述 Samza 流 计算 框架 的 架构 、 运 行 工 作 原理 。 

. 动手 构建 一 个 关于 天 气 的 实时 预警 分 析 应 用 ,采用 Storm 流 计算 框架 。 
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随 着 互联 网 的 快速 发 展 和 大 数据 的 来 临 , 基 于 数据 密集 型 应 用 的 集群 计算 框架 不 断 涌 
现 ,并 且 这 些 计 算 框架 都 只 面向 某 一 类 特定 领域 的 应 用 。 基 于 这 一 特点 ,互联 网 公司 往往 需 
要 部 署 和 运行 多 个 计算 框架 ,从 而 为 每 个 应 用 选择 最 优 的 计算 框架 。 因 此 ,资源 统一 管理 和 
调度 系统 作为 集群 共享 平台 被 提出 来 。 当 前 比较 有 名 的 开源 资源 统一 管理 和 调度 平台 有 两 
个 ,一 个 是 Mesos ,另外 一 个 是 YARN。 集 群 资 源 统一 管理 和 调度 系统 需要 同时 支持 多 种 
不 同 的 计算 框架 ,如 何 管理 集群 计算 资源 和 不 同 计 算 框 架 间 的 资源 公平 分 配 成 为 关键 技术 
难点 。 不 同 计算 框架 的 作业 是 异 构 的 ,如 何在 不 同 框架 间 进 行 作 业 调 度 以 充分 利用 集群 资 
源 和 提高 系统 吞吐 量 成 为 新 的 挑战 。 

相 比 于 “一 种 计算 框架 一 个 集群 ”的 模式 ,共享 集群 的 模式 具有 以 下 三 个 优点 。 

(1) 硬件 共享 ,资源 利用 率 高 。 如 果 每 个 框架 一 个 集群 , 则 往往 由 于 应 用 程序 的 数量 和 
资源 需求 的 不 均衡 使 得 在 某 段 时 间 内 有 些 计 算 框架 的 资源 紧张 ,而 男 外 一 些 集群 资源 比较 
空闲 。 共 享 集群 模式 则 通过 多 框架 共享 资源 ,使 得 集群 中 的 资源 得 到 更 加 充分 的 利用 。 

C2) 人 员 共 享 , 运 维 成 本 低 。 采 用 "一 种 计算 框架 一 个 集群 的 模式 可 能 需要 多 个 管理 
员 来 管理 和 维护 集群 ,进而 增加 运 维 成 本 ,而 在 共享 模式 下 只 需要 少数 几 个 管理 员 即 可 完成 
多 个 框架 的 统一 管理 。 

(3) 数据 共享 ,数据 复制 开销 低 。 随 着 数据 量 的 暴 增 , 跨 集群 的 数据 移动 不 仅 需 要 花费 
更 长 的 时 间 , 且 硬件 成 本 也 会 随 之 增加 ; 而 共享 集群 可 让 多 个 框架 共享 数据 和 硬件 存储 资 
源 , 这 将 大 大 减少 数据 复制 的 开销 。 


13.1 集群 资源 统一 管理 系统 


简 而 言 之 ,集群 资源 统一 管理 系统 需要 支持 多 种 计算 框架 ,并 需要 具有 扩展 性 、 容 错 性 
和 高 资源 利用 率 等 儿 个 特点 。 一 个 行 之 有 效 的 资源 统一 管理 系统 需要 包含 资源 管理 ,分 配 
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和 调度 等 功能 。 图 13-1 是 统一 管理 与 调度 系统 的 基本 架构 图 。 
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图 13-1 资源 统一 管理 与 调度 系统 基本 架构 
基于 真实 资源 需求 的 资源 管理 方案 能 够 提升 集群 资源 的 利用 率 , 进 而 提升 吞吐 量 。 


13.1.1 集群 资源 管理 概述 


商业 服务 器 集群 目前 已 经 成 为 主要 的 计算 平台 ,为 互联 网 服务 和 大 量 的 数据 密集 型 科 
学 计算 提供 了 强大 的 计算 能 力 。 基 于 上 述 需 求 , 研 究 人 员 和 开发 人 员 设 计 和 实现 了 大 量 的 
分 布 式 计算 框架 ,简化 集群 程序 的 编写 ,最 典型 的 例子 包括 MapReduce, Dryad, MapReduce 
Online( 支 持 流 任务 ) .Pregel( 图 计算 框架 )。 新 的 计算 框架 仍然 不 断 地 产生 ,但 是 没有 一 种 
计算 框架 可 以 适合 所 有 的 计算 任务 ,所 以 目前 采取 的 方式 是 在 同一 个 集群 上 运行 多 个 计算 
框架 ,选取 一 个 最 优 的 。 多 个 计算 框架 之 间 共 享 一 个 服务 器 集群 可 以 共享 大 规模 数据 集 , 极 
大 地 降低 因为 数据 集 规模 巨大 而 带 来 的 复制 开销 。 

当前 多 个 计算 框架 共用 一 个 服务 器 集群 的 方式 是 对 集群 进行 静态 划分 ,每 个 分 区 运行 
一 个 计算 框架 ; 另外 一 种 方式 是 为 每 个 计算 框架 分 配 一 些 虚 拟 机 VM, 但 是 这 些 方法 都 没 
有 实现 高 利用 率 和 数据 共享 ,最 重要 的 原因 是 当前 这 些 解决 方法 的 资源 分 配 粒 度 和 当前 的 
计算 框架 不 匹配 。 典 型 的 计算 框架 ,如 Hadoop 和 Dryad, 采 用 的 是 细 粒 度 的 资源 共享 模 
型 ,计算 节点 把 资源 划分 成 多 个 slot, 并 且 一 个 job 由 多 个 短 任务 task 组 成 , 短 任务 实现 了 
资源 的 高 利用 率 和 高 扩展 性 ,但 是 目前 的 大 多 数 计算 框架 基本 上 都 是 独立 开发 ,没有 一 个 在 
多 个 计算 框架 之 间 细 粒度 共享 资源 的 方式 ,从 而 在 这 些 计 算 框 架 之 间 共 享 资源 和 数据 变 得 
更 加 困难 和 复杂 。 

因此 要 设计 一 种 集群 资源 管理 系统 支持 多 个 计算 框架 ,实现 集群 资源 共享 和 高 利用 率 。 
为 了 实现 这 一 目标 需要 解决 以 下 问题 。 

CD 支持 多 种 不 同 的 计算 框架 。 不 同 的 计算 框架 采用 的 是 不 同 的 资源 共享 模型 ,不同 
的 资源 调度 需求 .不同 的 通信 模式 以 及 不 同 的 任务 依赖 关系 , 既 要 支持 当前 计算 框架 ,也 需 
要 支持 以 后 的 计算 框架 。 

(2) 集群 资源 管理 系统 需要 支持 良好 的 扩展 性 。 当 前 的 集群 资源 拥有 几 万 台 计 算 节 
点 ,运行 着 几 百 个 job ,一 次 有 几 百 万 个 task 同时 运行 。 

(3) 需要 具有 良好 的 容错 和 高 可 靠 性 。 
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13.1.2 Apache YARN 


Apache Hadoop YARN(Yet Another Resource Negotiator, 另 一 种 资源 协调 者 ) 是 一 种 
新 的 Hadoop 资源 管理 器 , 它 是 一 个 通用 资源 管理 系统 ,可 为 上 层 应 用 提供 统一 的 资源 管理 
和 调度 , 它 的 引入 为 集群 在 利用 率 、 资 源 统一 管理 和 数据 共享 等 方面 带 来 了 巨大 的 好 处 。 

YARN 的 基本 思想 是 将 JobTracker 的 两 个 主要 功能 (资源 管理 和 作业 调度 /监控 ) 分 
离 , 主 要 方法 是 创建 一 个 全 局 的 ResourceManager (RM) 和 若干 个 针对 应 用 程序 的 
ApplicationMaster(AM)。 这 里 的 应 用 程序 是 指 传统 的 MapReduce 作业 或 DAG( 有 向 无 环 
图 ) 作 业 。 

YARN 分 层 结 构 的 本 质 是 ResourceManager。 这 个 实体 控制 整个 集群 并 管理 应 用 程 
序 向 基础 计算 资源 的 分 配 。ResourceManager 将 各 个 资源 部 分 (计算 、 内 存 、 带 宽 等 ) 精 心地 
安排 给 基础 NodeManager (YARN 的 每 个 节点 代理 )。ResourceManager 还 与 
ApplicationMaster 一 起 分 配 资源 ,与 NodeManager 一 起 启动 和 监视 它们 的 基础 应 用 程序 。 
在 此 上 下 文中 ,ApplicationMaster 承担 了 以 前 的 TaskTracker 的 一 些 角 色 ,ResourceManager 承 
担 了 JobTracker 的 角色 。 

ApplicationMaster 管理 一 个 在 YARN 内 运行 的 应 用 程序 的 每 个 实例 。ApplicationMaster 
负责 协调 来 自 ResourceManager 的 资源 ,并 通过 NodeManager 监视 容器 的 执行 和 资源 使 用 
(CPU、 内 存 等 的 资源 分 配 ) 。 

NodeManager 管理 一 个 YARN 集群 中 的 每 个 节点 。NodeManager 提供 针对 集群 中 每 
个 节点 的 服务 ,从 监督 对 一 个 容器 的 终生 管理 到 监视 资源 和 跟踪 节点 健康 。MRv1l 通过 插 
槽 管理 Map 和 Reduce 任务 的 执行 ,而 NodeManager 管理 抽象 容器 ,这 些 容 器 代表 着 可 供 
一 个 特定 应 用 程序 使 用 的 针对 每 个 节点 的 资源 。 如 果 要 使 用 一 个 YARN 集群 ,首先 需要 来 
自 包含 一 个 应 用 程序 的 客户 的 请 求 。ResourceManager 协商 一 个 容器 的 必要 资源 ,启动 一 
个 ApplicationMaster 来 表示 已 提交 的 应 用 程序 。 通 过 使 用 一 个 资源 请 求 协议 ， 
ApplicationMaster 协商 每 个 节点 上 供应 用 程序 使 用 的 资源 容器 。 在 执行 应 用 程序 时 ， 
ApplicationMaster 监视 容器 直到 完成 。 当 应 用 程序 完成 时 , ApplicationMaster 从 
ResourceManager 注销 其 容器 ,执行 周期 就 完成 了 。 

图 13-2 显示 了 在 YARN 上 运行 的 两 个 Application. 每 个 Application 有 一 个 
ApplicationMaster, 如 图 中 的 AM, 和 AM,。 每 个 ApplicationMaster 管理 每 个 应 用 的 每 个 
具体 任务 ,包括 任务 启动 、 任 务 监控 \ 任 务 失败 重启 。 图 13-2 显示 了 AM, 管理 三 个 任务 , 具 
体 包 括 Container; ,; , Container;,; ,Containeri,; , AM; 管理 4 个 任务 ,具体 包括 Container; 、 
Container;,; „Container, , Container;,, o 


下 面 从 YARN 资源 分 配 模型 和 协议 组 件 两 部 分 来 分 析 YARN 的 工作 原理 。 

1. 资源 分 配 模 型 

在 早期 的 Hadoop 版 本 中 ,每 个 集群 中 的 节点 资源 被 静态 赋予 具体 的 slot 值 ,分 为 Map 
slot 和 Reduce slot, 这 些 slot 无 法 在 Map 任务 和 Reduce 任务 之 间 共 享 。 这 种 静态 划分 
Map slot 和 Reduce slot 的 方式 效果 不 佳 ,因为 MapReduce Job 运行 会 发 生 改 变 。 实 际 情 
况 是 每 个 MapReduce Job 随机 提交 ,每 一 个 都 需要 提交 自己 的 Map slot 和 Reduce slot 需 
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图 13-2 YARN 运行 Application 


求 , 这 样 很 难 使 集群 的 资源 利用 达到 最 优 。 

目前 解决 这 种 问题 的 方式 是 利用 Container 的 方法 ,这 是 一 种 更 具有 弹性 的 资源 模型 。 
资源 请 求 以 Container 的 方式 发 送 ,每 个 Container 里 面 的 属性 都 是 非 静 态 的 。 使 用 
Container 的 方式 只 需要 对 Container 中 的 每 个 属性 定义 一 个 最 大 值 和 一 个 最 小 值 , 比 如 为 
memory 属性 定义 最 大 值 和 最 小 值 。ApplicationMaster 请 求 容 器 Container, 设 置 对 应 的 属 
性 值 , 只 需要 最 大 值 和 最 小 值 。 

2. 协议 组 件 

这 里 通过 讲解 YARN 中 三 个 重要 的 通信 协议 来 理解 YARN 的 具体 工作 原理 。 

1) Client-ResourceManager 

图 13-3 显示 了 一 个 Application 在 YARN 上 初始 启动 的 过 程 ,典型 的 是 通过 Client 和 
RM 通信 来 启动 Application。 第 1 步 ,Client 发 送 启 动 Application 请 求 给 RM 创建 一 个 新 
的 Application; 第 2 步 ,RM 应 答 Client 的 请 求 ,返回 一 个 ApplicationId 给 Client; 第 3 步 ， 
在 收 到 来 自 RM 的 响应 后 ,Client 构建 Application Submission Context, 信 息 包括 Appld, 
Queue, Priority 等 ,也 包括 Container Launch Context, H FE NM 上 启动 具体 的 task. 

Client 提交 Application Context 启动 Application 之 后 ,可 以 发 送 Application Report 
查询 请 求 给 RM 查询 具体 的 Application Report. RM 返回 请 求 结果 。 如 果 中 间 出 现 其 他 问 
题 ,Client 可 以 取消 删除 该 应 用 ,如 图 13-4 中 的 步骤 6 所 示 。 

2) ResourceManager-A pplicationMaster 


当 RM 接收 来 自 Client 的 submission context 之 后 ,寻找 到 一 个 具体 有 效 的 Container 
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图 13-3 应 用 程序 启动 





13-4 应 用 Application 运行 


满足 AM 的 需求 ,然后 在 具体 的 NM 上 启动 AM. Fl 13-5 描述 了 在 NM 上 启动 AM 之 后 
AM 启动 多 个 task 的 过 程 。 第 1 步 ,AM 向 RM 登记 ,这 个 过 程 包括 一 个 握手 过 程 以 及 发 
3& RPC 端口 ,tracking URL 等 信息 ; 第 2 步 ,RM 返回 重要 信息 ,包括 当前 集群 的 min/max 
资源 容量 ,AM 根据 min/max 资源 容量 计算 每 个 task 的 资源 请 求 ; 第 3 步 ,发 送 具 体 的 
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Container 请 求 , 同 时 也 包括 AM 释放 的 Container; 第 5 步 ,RM 基于 调度 策略 计算 请 求 资 
源 , 返 回 满足 要 求 的 Container; 第 6 步 , 当 完成 Application 时 ,AM 发 送 一 个 完成 的 消息 给 
RM, 
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图 13-5 ApplicationMaster 启动 任务 


3) ApplicationMaster-ContainerManager 

图 13-6 显示 了 AMCApplicationMaster) 与 NMCNodeManager) 之 间 的 通信 。 第 1 步 ， 
AM 根据 RM 返回 的 Container 信息 发 送 Container Launch Context 到 对 应 的 RM 上 ; 当 
对 应 的 Container 运行 时 ,AM 通过 2) 和 3) 获取 对 应 的 Container 运行 时 信息 。 
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图 13-6 Application 监控 任务 运行 
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13.1.3 Apache Mesos 


Mesos 是 以 与 Linux 内 核 同 样 的 原则 创建 的 ,不 同 点 仅 在 于 抽象 的 层面 。Mesos 内 核 
运行 在 每 一 个 机 器 上 ,同时 通过 API 为 各 种 应 用 提供 跨 数据 中 心 和 云 的 资源 管理 调度 能 
力 。 这 些 应 用 包括 Hadoop, Spark, Kafka, Elastic Search, 53 9b. Mesos 还 可 配合 框架 
Marathon 来 管理 大 规模 的 Docker 等 容器 化 应 用 。 

图 13-7 显示 了 Mesos 的 主要 组 成 部 分 。Mesos 由 一 个 Master daemon 来 管理 Agent 
daemon 在 每 个 集群 节点 上 的 运行 , Mesos Applications( 也 称 为 Frameworks) 在 这 些 Agent 
上 运行 任务 。 
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图 13-7 Mesos 架构 图 


Master 使 用 Resource Offers 实现 跨 应 用 细 粒 度 资源 共享 ,如 CPU VJ ff, RÀ B. Pd At 
等 。Master 根据 指定 的 策略 来 决定 分 配 多 少 资源 给 计算 框架 ,如 公平 共享 策略 或 优先 级 策 
略 。 为 了 支持 更 多 样 性 的 策略 ,Master 采用 模块 化 结构 ,这 样 就 可 以 方便 地 通过 搬 件 形式 
来 添加 新 的 分 配 模块 。 

在 Mesos 上 运行 的 计算 框架 由 两 个 部 分 组 成 : 一 个 是 Scheduler, 通 过 注册 到 Master 
来 获取 集群 资源 ; 另 一 个 是 在 Agent 节点 上 运行 的 Executor 进程 , 它 可 以 执行 计算 框架 的 
Task。Master 决定 为 每 个 计算 框架 提供 多 少 资源 ,通过 计算 框架 的 Scheduler 来 选择 其 中 
提供 的 资源 。 当 计算 框架 同意 了 提供 的 资源 时 , 它 通 过 Master 将 Task 发 送 到 提供 资源 的 
Agent 上 运行 。 

图 13-8 是 一 个 计算 框架 运行 在 Mesos 上 的 资源 供给 流程 ,步骤 如 下 。 

(1) Agentl 向 Master 报告 有 4 个 CPU 和 4GB 内 存 可 用 。 

(2) Master 发 送 一 个 Resource Offer 给 Framework] 来 描述 Agent] 有 多 少 可 用 资源 。 

(3) Framework] 中 的 FW Scheduler 会 答复 Master 有 两 个 Task 需要 运行 在 Agentl 
上 ,一 个 Task 需要 < 2 CPU,1 GD 内 存 >, 另 外 一 个 Task 需要 < 1 CPU,2 GD 内 存 >。 

最 后 ,Master 发 送 这 些 Tasks 给 Agent1。 之 后 ,Agentl 还 有 一 个 CPU 和 1GB 内 存 没 
有 使 用 ,所 以 分 配 模块 可 以 把 这 些 资 源 提供 给 Framework? 
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图 13-8 资源 供给 


13.1.4 Google Omega 


Mesos, YARN 等 集群 管理 系统 采用 的 是 双 层 调度 器 , 相 比 独占 调度 器 (Monolithic 
scheduler) 具 有 更 高 的 并 发 度 ,但 是 它 具 有 以 下 缺点 。 

(1) 运行 在 这 些 集群 管理 系统 上 的 计算 框架 无 法 知道 整体 集群 的 资源 使 用 情况 。 

(2) 并 发 粒度 小 ,采用 的 是 悲观 方式 的 并 发 控制 。 

针对 上 述 双 层 调度 器 的 不 足 ,Omega 设计 了 共享 状态 调度 器 。 该 调度 器 将 双 层 调度 器 
中 的 集中 式 资源 调度 模块 简化 成 了 一 些 持久 化 的 共享 数据 (状态 ) 和 针对 这 些 数 据 的 验证 代 
码 ,而 这 里 的 “共享 数据 ?实际 上 就 是 整个 集群 的 实时 资源 使 用 信息 。 


13.2 资源 管理 模型 


集群 资源 管理 模型 通常 由 两 个 部 分 组 成 , 即 资源 表示 模型 和 资源 分 配 模型 。 由 于 这 两 
个 部 分 是 耦合 的 ,所 以 优化 集群 资源 管理 时 需要 同时 结合 这 两 个 部 分 进行 考虑 。 资 源 表 示 
模型 用 于 描述 集群 资源 的 组 织 方式 ,是 集群 资源 统一 管理 的 基础 。 从 狭义 上 来 讲 , 计 算 资 源 
是 指 具 有 计算 能 力 的 资源 ,如 CPU 和 GPU 等 。 但 实际 上 ,对 系统 计算 有 影响 的 资源 都 可 
以 划分 到 计算 资源 的 范畴 ,包括 内 存 容 量 、 磁 盘 容 量 .IVO 和 网 络 带 宽 等 。 合 理 的 资源 表示 
模型 可 以 有 效 地 利用 资源 ,提高 集群 的 利用 率 。 


13.2.1 基于 slot 的 资源 表示 模型 


集群 中 每 个 节点 的 资源 都 是 多 维 的 ,包括 CPU 内存、 网 络 I/O 和 磁盘 I/O。 为 了 简化 
资源 管理 问题 ,很 多 框架 (如 Hadoop) 引 入 * 槽 位 (slot) 概 念 , 并 采用 slot 组 织 各 个 节点 上 
的 计算 资源 。 实 际 上 ,基于 slot 的 资源 表示 模型 就 是 将 各 个 节点 上 的 资源 等 量 切 分 成 若干 
f ,每 一 份 用 一 个 slot 表示 ,同时 规定 任务 可 以 根据 实际 需求 占用 多 个 slot。 通 过 引入 slot 
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这 一 概念 ,各 个 节点 上 的 多 维度 资源 被 抽象 成 单一 维度 的 slot, 这 样 可 以 把 复杂 的 多 维度 资 
源 分 配 问题 转化 成 简单 的 slot 分 配 问 题 ,从 而 大 大 降低 了 资源 管理 问题 的 复杂 度 。 

更 进一步 说 ,slot 相当 于 任务 运行 “许可 证 ”。 一 个 任务 只 有 得 到 该 许可 证 ”后 才能 获 
得 运行 的 机 会 。 这 意味 着 每 个 节点 上 的 slot 数量 决定 了 该 节点 上 最 大 允许 的 任务 并 发 度 。 
同时 为 了 区 分 不 同 任务 所 用 资源 量 的 差异 ,如 Hadoop 的 作业 被 分 为 Map Task 和 Reduce 
Task 两 种 类 型 ,slot 则 被 分 为 Map slot 和 Reduce slot 两 种 类 型 ,并 且 只 能 分 别 被 Map 
Task 和 Reduce Task 使 用 。 


13.2.2 基于 最 大 、 最 小 公平 原则 的 资源 分 配 模型 


对 于 任何 共享 集群 的 系统 ,资源 分 配 都 是 一 个 至 关 重 要 的 模块 。 一 个 最 常用 的 分 配 策 
略 是 最 大 最 小 公平 原则 ,其 最 早 用 于 控制 网 络 流量 ,以 实现 公平 分 配 网 络 带宽 。 最 大 最 小 公 
平 策略 的 基本 含义 是 使 得 资源 分 配 的 最 小 分 配 量 尽 可 能 最 大 , 它 可 以 防止 任何 网 络 流 被 “ 饿 
死 ”, 同 时 在 一 定 程度 上 尽 可 能 地 增加 每 个 流 的 速率 。 因 此 ,最 大 最 小 公平 策略 被 认为 是 一 
种 很 好 的 权衡 有 效 性 和 公平 性 的 自由 分 配 策略 ,在 经 济 、 网 络 领域 有 着 广泛 的 应 用 ,由 其 演 
变 出 来 的 加 权 最 大 最 小 公平 模型 被 一 些 资源 分 配 策略 广泛 地 采用 ,如 基于 优先 级 、 预 留 机 制 
和 限期 的 分 配 策略 。 最 大 最 小 公平 模型 同时 也 保证 分 配 隔离 , 即 用 户 确保 接收 自己 的 分 配 
量 而 不 用 考虑 其 他 用 户 的 需求 。 

基于 这 些 特点 ,大 量 的 分 配 算法 被 提出 来 实现 不 同 准确 度 的 最 大 最 小 公平 模型 ,例如 轮 
询 . 均 衔 资 源 共 享 和 加 权 公平 队列 等 。 这 些 算法 被 应 用 于 各 种 各 样 的 资源 分 配 上 ,包括 网 络 
带宽 .CPU 内 存 以 及 二 级 存储 空间 。 但 这 些 公平 分 配 的 工作 主要 集中 在 单一 资源 类 型 , 同 
样 ,在 多 类 型 资源 环境 和 需求 异 构 化 下 ,公平 合理 的 分 配 策略 也 很 重要 。 

为 了 支持 多 维度 资源 调度 , 越 来 越 多 的 分 配 算法 被 提出 ,包括 主 资源 公平 调度 算法 ,该 
算法 扩展 了 最 大 最 小 公平 算法 ,其 能 够 在 保证 分 配 公平 的 前 提 下 支持 多 维度 资源 的 调度 。 
在 DRE 算法 中 将 所 需 份额 (资源 比例 ) 最 大 的 资源 称 为 主 资源 ,DRF 的 基本 设计 思想 则 是 
将 最 大 最 小 公平 算法 应 用 于 主 资源 上 ,进而 将 多 维 资源 调度 问题 转化 为 单 维 资源 调度 问题 ， 
即 DRF 总 是 最 大 化 所 有 主 资源 占用 量 中 最 小 的 。 由 于 DRE 被 证 明 非 常 适合 应 用 于 多 资源 
和 复杂 需求 的 环境 中 ,因此 被 越 来 越 多 的 系统 所 采用 ,其 中 包括 Apache YARN 和 Apache 


Mesos, 


13.3 资源 调度 策略 


13.3.1 调度 策略 概述 


在 分 布 式 计 算 领 域 中 ,资源 分 配 问题 实际 上 是 一 个 任务 调度 问题 。 它 的 主要 任务 是 根 
据 当前 集群 中 各 个 节点 上 的 资源 (包括 CPU 内存 和 网 络 ) 的 剩余 情况 与 各 个 用 户 作 业 的 服 
务 质 量 要 求 在 资源 和 作业 任务 之 间 做 出 最 优 的 匹配 。 由 于 用 户 对 作业 服务 质量 的 要 求 是 多 
样 化 的 ,分 布 式 系统 中 的 任务 调度 是 一 个 多 目标 优化 的 问题 。 更 进一步 说 , 它 是 一 个 典型 的 
NP-hard 问题 。 
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通常 ,分 布 式 系统 都 会 提供 一 个 非常 简单 的 调度 机 制 一 -FIFOCFirst In First Out), 即 
先 来 先 服务 。 在 该 调度 机 制 下 ,所 有 的 用 户 作 业 都 被 提交 到 一 个 队列 中 ,然后 由 调度 器 按照 
作业 提交 时 间 的 先后 顺序 来 选择 将 被 执行 的 作业 。 但 随 着 分 布 式 计算 框架 的 普及 ,集群 的 
用 户 量 越 来 越 大 ,不 同 用 户 提交 的 应 用 程序 往往 具有 不 同 的 服务 质量 要 求 , 典 型 的 应 用 有 以 
下 三 种 。 

CD 批 处 理 作业 。 这 种 作业 往往 耗 时 较 长 ,对 完成 时 间 一 般 没 有 严格 要 求 ,如 数据 挖 
据 、 机 器 学 习 等 方面 的 应 用 程序 。 

(2) 交互 式 作 业 。 这 种 作业 期 望 能 及 时 返回 结果 ,如 SQL 查询 (Hive)。 

(3) 生产 性 作业 。 这 种 作业 要 求 有 一 定量 的 资源 保证 ,如 统计 值 计 算 、 垃 圾 数据 分 
析 等 。 

此 外 ,不 同 应 用 程序 对 硬件 资源 的 需求 量 也 是 不 同 的 ,如 过 滤 / 统 计 类 作业 一 般 为 CPU 
密集 型 作业 ,而 数据 挖掘 、 机 器 学 习 的 作业 一 般 为 I/O 密集 型 作业 。 传 统 的 FIFO 调度 算法 
虽然 简单 明了 ,但 是 它 忽略 了 不 同 作业 对 资源 的 需求 差异 ,严重 时 会 影响 作业 的 执行 。 
此 ,传统 的 FIFO 调度 策略 不 仅 不 能 满足 多 样 化 需求 ,也 不 能 充分 利用 硬件 资源 。 

为 了 克服 单 队列 FIFO 调度 器 的 不 足 , 多 种 类 型 的 多 用 户 多 队列 调度 器 相继 出 现 。 这 
些 调度 策略 允许 管理 员 按照 应 用 需求 对 用 户 或 者 应 用 程序 分 组 ,并 为 不 同 的 分 组 分 配 不 同 
的 资源 量 , 同 时 通过 添加 各 种 约束 防止 单个 用 户 或 应 用 程序 独占 资源 ,进而 满足 多 样 化 的 
QoS 需求 。 当 前 主要 有 两 种 多 用 户 作 业 调度 器 的 设计 思路 : 第 一 种 是 在 一 个 物理 集群 上 虚 
拟 多 个 子 集群 ,典型 的 代表 是 HOD(Hadoop On Demand) 调 度 器 ; 另 一 种 是 扩展 传统 调度 
策略 ,使 之 支持 多 队列 多 用 户 ,这 样 不 同 的 队列 拥有 不 同 的 资源 量 , 可 以 运行 不 同 的 应 用 程 
序 , 典 型 的 代表 是 Yahoo! 的 Capacity Scheduler 和 Facebook 的 Fair Scheduler, 


13.3.2 Capacity Scheduler 调度 


Capacity Scheduler 调度 器 是 解决 多 用 户 情况 下 共享 集群 资源 的 调度 方式 ,使 每 个 提交 
的 计算 任务 都 可 以 在 合理 的 时 间 内 完成 。 

下 面 以 Hadoop 中 的 MapReduce 作业 为 例 来 介绍 Capacity Scheduler 调度 器 。 目 前 很 
多 公司 渐渐 采用 资源 池 的 方式 组 织 和 管理 资源 ,公司 下 属 的 多 个 部 门 机 构 如 果 需 要 使 用 资 
源 则 从 总 的 资源 池 中 分 配 具体 配额 。 如 果 需 要 运行 Hadoop MapReduce 作业 任务 在 这 些 
共享 集群 资源 上 , 则 需要 良好 的 资源 调度 方式 。 

Capacity Scheduler 调度 的 思路 如 下 : 将 总 体 的 集群 资源 以 可 以 预测 和 简单 的 方式 划 
分 到 公司 的 多 个 子 部 门 和 机 构 , 主 要 是 以 Job 队列 的 方式 ; 每 个 Job 队列 都 有 一 个 capacity 
的 保证 ,也 同时 提供 资源 弹性 功能 , 即 一 个 队列 未 使 用 的 资源 可 以 给 Job 过 载 的 队列 使 用 ; 
采用 这 种 资源 调度 方式 既 可 以 提高 系统 的 资源 利用 率 , 也 可 以 确保 所 有 Job 的 正常 运行 。 
举 个 简单 的 例子 ,假设 建立 了 5 个 Job 队列 , 则 每 个 Job 队列 将 会 拥有 20% 的 计算 处 理 能 
力 , 用 户 当然 可 以 自己 定义 Job 应 放 到 哪个 Job 队列 中 。 

目前 ,Hadoop 中 实现 的 Capacity Scheduler 支持 以 下 特性 。 

(1) 等 级 队列 (Hierarchy Queue)。 采 用 等 级 队列 的 方式 可 以 确保 所 有 的 空闲 资源 在 
所 有 用 户 中 共享 ,提高 资源 的 控制 能 力 。 

(2) 容量 保证 (Capacity Guarantee) 。 每 个 队列 都 有 一 定 比 例 的 资源 。 
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(3) 安全 保证 (Security Guarantee) 。 每 个 队列 都 有 ACL ,限制 可 以 存放 的 用 户 Job. 

(4) 弹性 (Elasticity) 。 分 配给 队列 的 空闲 资源 超过 它 的 容量 ,多 余 的 空闲 资源 可 以 分 
配给 其 他 队列 。 

(5) 多 用 户 (Multirtenancy) 。 提 供给 每 个 应 用 .用 户 和 队列 的 资源 是 有 限制 的 ,防止 它 
们 独占 整体 的 队列 资源 和 集群 资源 。 

(6) 可 操作 。 运 行 时 配置 (可 以 在 运行 时 更 改 配置 ) 和 Drain Application( 系 统管 理 员 
可 以 停止 队列 直到 现 有 的 应 用 完成 才 允 许 新 的 Job 添加 到 队列 中 )。 

(7) 基于 资源 的 调度 。 支 持 资源 密集 型 应 用 ,这 些 应 用 可 以 指定 高 于 默认 的 资源 需求 ， 
同时 协调 不 同 的 资源 需求 。 

表 13-1 是 Hadoop 中 Capacity Scheduler 调度 器 配置 。 

表 13-1 conf/yarn-site. xml 配置 


属 性 值 


org. apache. hadoop. yarn. server. resourcemanager. scheduler. 








yarn. resourcemanager. scheduler. class 


capacity. CapacityScheduler 





下 面 是 具体 的 队列 配置 。 





< PropertYy > 
< nane > yarn. scheduler. capacity. root. queues </name > 
< value» a, b, c «/value» 
< description» The queues at the this level (root is the root queue). 
</description> 
</property> 


< property» 
< name> yarn. scheduler. capacity. root. a. queues </name > 
< value» a1,a2 </value> 
« description» The queues at the this level (root is the root queue). 
</description> 
</property> 


< property ^ 
< name > yarn. scheduler. capacity. root. b. queues </name > 
< value» b1, b2,b3 </value> 
< description >The queues at the this level (root is the root queue). 
«/description» 
</property> 











13.3.3 Fair Scheduler 调度 


公平 调度 是 一 种 赋予 作业 (Job) 资 源 的 方法 , 它 的 目的 是 让 所 有 作业 随 着 时 间 的 推移 都 
能 平均 地 获取 等 同 的 共享 资源 。 当 单独 一 个 作业 运行 时 , 它 将 使 用 整个 集群 。 当 有 其 他 作 
业 被 提交 上 来 时 ,系统 会 将 任务 (task) 空 闲 时 间 片 (slot) 赋 给 这 些 新 的 作业 ,以 使 每 一 个 作 
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业 大 概 获取 到 等 量 的 CPU 时 间 。 与 Hadoop 默认 调度 器 维护 一 个 作业 队列 不 同 , 这 个 特性 
让 小 作业 在 合理 的 时 间 内 完成 的 同时 又 不 “ 饿 "到 消耗 较 长 时 间 的 大 作业 。 它 也 是 一 个 在 多 
用 户 间 共享 集群 的 简单 方法 。 公 平 共享 可 以 和 作业 优先 权 搭 配 使 用 一 一 优先 权 像 权重 一 样 
用 作 决 定 每 个 作业 所 能 获取 的 整体 计算 时 间 的 比例 。 

公平 调度 器 按 资 源 池 (pool) 来 组 织 作 业 , 并 把 资源 公平 地 分 到 这 些 资 源 池 里 。 默 认 情 
况 下 ,每 一 个 用 户 拥 有 一 个 独立 的 资源 池 ,以 使 每 个 用 户 都 能 获得 一 份 等 同 的 集群 资源 而 不 
管 他 们 提交 了 多 少 作 业 。 按 用 户 的 UNIX 群 组 或 作业 配置 (JobConf) 属 性 来 设置 作业 的 资 
源 池 也 是 可 以 的 。 在 每 一 个 资源 池内 会 使 用 公平 共享 的 方法 在 运行 作业 之 间 共 享 容 量 。 用 
户 也 可 以 给 予 资源 池 相 应 的 权重 ,以 不 按 比例 的 方式 共享 集群 。 

除了 提供 公平 共享 方法 外 ,公平 调度 器 还 提供 了 资源 池 中 最 小 使 用 资源 保证 ,这 种 方式 
在 特定 场合 和 生产 环境 下 可 以 起 到 很 有 效 的 作用 。 当 一 个 资源 池 包 含 作 业 时 , 它 至 少 能 获 
取 到 它 的 最 小 共享 资源 ,但 是 当 资 源 池 不 完全 需要 它 所 拥有 的 保证 共享 资源 时 ,额外 的 部 分 
会 在 其 他 资源 池 间 进行 切 分 。 

在 常规 操作 中 , 当 提 交 了 一 个 新 作业 时 ,公平 调度 器 会 等 待 已 运行 作业 中 的 任务 完成 以 
释放 时 间 片 给 新 的 作业 。 但 是 公平 调度 器 也 支持 在 可 配置 的 超时 时 间 后 对 运行 中 的 作业 进 
行 抢占 。 如 果 新 的 作业 在 一 定时 间 内 还 获取 不 到 最 小 的 共享 资源 ,这 个 作业 被 允许 去 终结 
已 运行 作业 中 的 任务 以 获取 运行 所 需要 的 资源 。 因 此 抢占 可 以 用 来 保证 “生产 ”作业 在 指定 
时 间 内 运行 的 同时 也 让 Hadoop 集群 能 被 实验 或 研究 作业 使 用 。 另 外 ,作业 的 资源 在 可 配 
置 的 超时 时 间 ( 一 般 设置 大 于 最 小 共享 资源 超时 时 间 ) 内 拥有 不 到 其 公平 共享 资源 一 半 的 时 
修 也 允许 对 任务 进行 抢占 。 在 选择 需要 结束 的 任务 时 ,公平 调度 器 会 在 所 有 作业 中 选择 那 
些 最 近 运行 起 来 的 任务 ,以 最 小 化 被 浪费 的 计算 。 抢 占 不 会 导致 被 抢占 的 作业 失败 ,因为 
Hadoop 作业 能 “容忍 "丢失 任务 ,这 只 是 会 让 它们 的 运行 时 间 更 长 。 

最 后 ,公平 调度 器 还 可 以 限制 每 个 用 户 和 每 个 资源 池 的 并 发 运行 作业 数量 。 当 一 个 用 
户 必须 一 次 性 提交 数 百 个 作业 时 ,或 当 大 量 作业 并 发 执行 时 ,用 来 确保 中 间 数 据 不 会 塞 满 集 
群 上 的 磁盘 空间 ,这 是 很 有 用 的 。 设 置 作 业 限 制 会 使 超出 限制 的 作业 被 列 和 调度 器 的 队列 
中 进行 等 待 ,直到 一 些 用 户 / 资 源 池 的 早期 作业 运行 完毕 。 系 统 会 根据 作业 优先 权 和 提交 时 
间 的 排列 来 运行 每 个 用 户 / 资 源 池 中 的 作业 。 

以 下 是 Hadoop 中 配置 Fair Scheduler 的 方式 。 








< property» 

< name > mapred. jobtracker. taskScheduler </name > 

< value» org. apache. hadoop. mapred. FairScheduler </value> 
</property> 











实现 公平 调度 分 为 两 个 方面 : 计算 每 个 作业 的 公平 共享 资源 ,以 及 当 一 个 任务 的 时 间 
片 可 用 时 选择 哪个 作业 去 运行 。 

在 选择 了 运行 作业 之 后 ,调度 器 会 跟踪 每 一 个 作业 的 “缺额 "一 一 作业 在 理想 调度 器 上 
所 应 得 的 计算 时 间 与 实际 所 获得 的 计算 时 间 的 差额 。 这 是 一 个 测量 作业 的 “不 公平 "待遇 的 
度量 标准 。 每 过 几 百 毫秒 ,调度 器 就 会 通过 查看 各 个 作业 在 这 个 间隔 内 运行 的 任务 数 与 它 
的 公平 共享 资源 的 差额 来 更 新 各 个 作业 的 缺额 。 当 有 任务 时 间 片 可 用 时 , 它 会 被 赋 给 拥有 
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最 高 缺额 的 作业 。 但 有 一 个 例外 一 一 如 果 有 一 个 或 多 个 作业 都 没有 达到 它们 的 资源 池 容 量 
的 保证 量 , 将 只 在 这 些 “ 贫 穷 ” 的 作业 间 进 行 选择 (再 次 基于 它们 的 缺额 ), 以 保证 调度 器 能 尽 
快 地 满足 资源 池 的 保证 量 。 

公平 共享 资源 是 依据 各 个 作业 的 “权重 ”通过 在 可 运行 作业 之 间 平 分 集群 容量 计算 出 来 
的 。 默 认 权重 是 基于 作业 优先 权 的 ,每 一 级 优先 权 的 权重 是 下 一 级 的 两 倍 ( 例 如 ,VERY_ 
HIGH 的 权重 是 NORMAL 的 4 倍 )。 但 是 ,权重 也 可 以 基于 作业 的 大 小 和 年 龄 。 对 于 在 一 
个 资源 池内 的 作业 ,公平 共享 资源 还 会 考虑 这 个 资源 池 的 最 小 保证 量 ,接着 再 根据 作业 的 权 
重 在 这 个 资源 池内 的 作业 间 划 分 这 个 容量 。 

在 用 户 或 资源 池 的 运行 作业 限制 没有 达到 上 限 的 时 候 , 做 法 和 标准 的 Hadoop 调度 器 
一 样 ,在 选择 要 运行 的 作业 时 ,首先 根据 作业 的 优先 权 对 所 有 作业 进行 排序 ,然后 再 根据 提 
交 时 间 进 行 排序 。 对 于 上 述 排序 队列 中 超出 用 户 / 资 源 池 限 制 的 作业 将 会 被 排队 并 等 待 空 
闲 时 间 片 ,直到 它们 可 以 和 运行。 在 这 段 时 间 内 ,它们 被 公平 共享 计算 忽略 ,不 会 获得 或 失去 
缺额 (它们 的 公平 均 分 量 被 设 为 0) 。 

抢占 是 定期 检查 是 否 有 作业 的 资源 低 于 其 最 小 共享 资源 或 低 于 其 公平 共享 资源 的 一 
半 。 如 果 一 个 作业 的 资源 低 于 其 共享 资源 的 时 间 足 够 长 , 它 将 被 允许 去 结束 其 他 作业 的 任 
务 。 所 选择 的 任务 是 所 有 作业 中 最 近 运 行 起 来 的 任务 ,以 最 小 化 被 浪费 的 计算 。 


13.4 YARN 上 运行 计算 框架 


13.4.1 MapReduce on YARN 


由 于 MapReduce 的 JobTracker/TaskTracker 机 制 需 要 通过 大 规模 的 调整 来 修复 它 在 
可 扩展 性 内存 消耗 .线程 模型 .可靠 性 等 上 的 缺陷 ,为 从 根本 上 解决 上 昌 MapReduce 框架 的 
PEREM SI, MapReduce 框架 需要 完全 重 构 , 图 13-9 是 新 的 YARN 系统 架构 图 。 重 构 的 根本 
思想 是 将 JobTracker 的 两 个 主要 功能 分 离 成 单独 的 组 件 ,这 两 个 功能 是 资源 管理 和 任务 调 
度 /监控 。 新 的 资源 管理 器 全 局 管理 所 有 应 用 程序 计算 资源 的 分 配 ,每 一 个 应 用 的 
ApplicationMaster 负责 相应 的 调度 和 协调 。ResourceManager 和 每 一 台 机 器 的 节点 管理 
服务 器 管理 用 户 在 这 台 机 器 上 的 进程 并 能 对 计算 进行 组 织 。 

事实 上 , 每 一 个 应 用 的 ApplicationMaster 是 一 个 详细 的 框架 库 , 它 结合 从 
ResourceManager 获得 的 资源 和 NodeManager 协同 工作 来 运行 和 监控 任务 。 在 图 13-9 
中 ,ResourceManager 支持 分 层级 的 应 用 队列 ,这 些 队列 享有 集群 一 定 比 例 的 资源 。 它 就 是 
一 个 调度 器 ,在 执行 过 程 中 不 对 应 用 进行 监控 和 状态 跟踪 。 同 样 , 它 也 不 能 重启 因应 用 失败 
或 者 硬件 错误 而 运行 失败 的 任务 。 

ResourceManager 是 基于 应 用 程序 对 资源 的 需求 进行 调度 的 ,每 一 个 应 用 程序 需要 不 
同类 型 的 资源 ,因此 就 需要 不 同 的 容器 。 资 源 包括 内 存 `.CPU、 磁 盘 、 网 络 等 。 资 源 管 理 器 
提供 调度 策略 , 它 负 责 将 集群 资源 分 配给 多 个 队列 和 应 用 程序 。 调 度 器 可 以 基于 现 有 的 能 
力 进行 调度 。 

在 图 13-9 中 ,NodeManager 是 每 一 台 机 器 框架 的 代理 ,是 执行 应 用 程序 的 容器 ,监控 应 
用 程序 的 资源 使 用 情况 ,如 CPU 内存. 硬盘、 网络 等 ,并 且 向 调度 器 汇报 。 
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图 13-9 YARN 系统 架构 图 


每 一 个 应 用 程序 的 ApplicationMaster 的 职责 有 向 调度 器 索要 适当 的 资源 容器 .运行 任 
务 .跟踪 应 用 程序 的 状态 ,监控 进程 .处 理 任务 的 失败 原因 等 。 


13.4.2 Spark on YARN 


Spark 是 类 Hadoop MapReduce 的 通用 并 行 框架 。Spark 拥有 Hadoop MapReduce 所 


有 具 有 的 优点 ,不 同 于 MapReduce 的 是 Job 中 间 输 出 结 


果 可 以 保存 在 内 存 中 ,从 而 不 再 需要 


读 / 写 磁盘 ,因此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 的 
算法 。Spark 在 YARN 中 有 yarn-cluster 和 yarn-client 两 种 运行 模式 。 


1. yarn-cluster 


Spark Driver 首先 作为 一 个 ApplicationMaster 在 YARN 集群 中 启动 ,客户 端 提交 给 
ResourceManager 的 每 一 个 Job 都 会 在 集群 的 worker 节点 上 分 配 一 个 唯一 的 
ApplicationMaster, 由 该 ApplicationMaster 管理 全 生命 周期 的 应 用 。 因 为 Driver 程序 在 
YARN 中 运行 ,所 以 事先 不 用 启动 Spark Master/Client ,应 用 的 运行 结果 不 能 在 客户 端 显 
示 ( 可 以 在 History Server 中 查看 ) ,所 以 最 好 将 结果 保存 在 HDFS 中 ,客户 端的 终端 显示 的 


是 作为 YARN 的 Job 的 简单 运行 状况 。 
yarn-cluster 的 运行 步骤 如 下 。 


(1) 由 Client 向 ResourceManager 提交 请 求 , 并 上 传 jar 到 HDFS 上 。 
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(2) ResouceManager 向 NodeManager 申请 资源 ,创建 Spark ApplicationMaster, 

(3) NodeManager 启动 Spark App Master 并 注册 。 

(4) Spark ApplicationMaster 从 HDFS 中 找到 jar 文件 ,启动 DAGscheduler fll YARN 
Cluster Scheduler, 

(5) ResourceManager 注册 申请 Container 资源 。 

(6) ResourceManager 通知 NodeManager 分 配 Container。 

(7) Spark ApplicationMaster 和 Container 进行 交互 ,完成 这 个 分 布 式 任务 。 

2. yarn-client 

在 yarn-client 模式 下 ,Driver 运行 在 Client 上 ,通过 ApplicationMaster 向 RM 获取 资 
。 本 地 Driver 负责 与 所 有 的 Executor Container 进行 交互 ,并 将 最 后 的 结果 汇总 。 结 束 
"T 相当 于 关闭 这 个 Spark 应 用 。 客 户 端的 Driver 将 应 用 提交 给 YARN Ja. YARN 246 
后 启动 ApplicationMaster 和 Executor。 

ApplicationMaster 和 Executor 都 是 装载 在 Container 里 运行 的 ,ApplicationMaster 分 
配 的 内 存 是 driver-memory, Executor 分 配 的 内 存 是 executor-memory。 同 时 ,因为 Driver 
在 客户 端 ,所 以 程序 的 运行 结果 可 以 在 客户 端 显示 ,Driver 以 进程 名 为 SparkSubmit 的 形式 
存在 。 


13.4.3 YARN 程序 设计 


YARN 是 一 个 资源 管理 系统 ,负责 集群 资源 的 管理 和 分 配 。 如 果 想 将 一 个 新 的 应 用 程 
序 运 行 在 YARN 之 上 ,通常 需要 编写 两 个 组 件 , 即 Client 和 ApplicationMaster。 在 实际 应 
用 中 专业 的 开发 人 员 编 写 这 两 个 组 件 , 并 提供 给 上 层 的 应 用 程序 用 户 使 用 。 如 果 大 量 应 用 
程序 可 抽象 成 一 种 通用 框架 ,只 需 实现 一 个 Client 和 一 个 ApplicationMaster, 然 后 让 所 有 
应 用 程序 重用 这 两 个 组 件 即 可 。 

通常 ,编写 一 个 YARN Application 涉及 下 面 三 个 PRC 协议 。 

(1) ClientRMProtocol。Client 通过 该 协议 将 应 用 程序 提交 给 ResourceManager 查询 
应 用 程序 的 运行 状态 、 杀 死 应 用 程序 等 。 

(2) AMRMProtocol。ApplicationMaster 使 用 该 协议 向 ResourceManager 注册 、 申 请 
资源 以 运行 自己 的 各 个 任务 。 

(3) ContainerManager。ApplicationMaster 使 用 该 协议 要 求 NodeManager 启动 /撤销 
Container, 或 者 获取 各 个 Container 的 运行 状态 

编写 YARN 程序 的 步骤 如 下 。 

1. 编写 Client 

客户 端 通常 只 需要 与 ResourceManager 交互 ,具体 如 下 。 

(1) 获取 Application Id。 客 户 端 通过 RPC 协议 ClientRMProtocol 向 ResourceManager 
发 送 应 用 程序 提交 请 求 
GetNewApplicationResponse。 

(2) 提交 ApplicationMaster。 将 启动 ApplicationMaster 所 需 的 全 部 信息 打包 到 数据 结构 
ApplicationSubmissionContext 中 ,所 需 信 息 主要 包括 Application Id, Application Name, Application 


E 





GetNewApplicationRequest, ResourceManager 返回 
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Priority, Application 所 属 队 列 、Application 启动 用 户 名 、Application 对 应 的 Container fri 
息 。 客 户 端 调用 ClientRMProtocol# submitApplication(ApplicationSubmissionContext) 将 
ApplicationMaster 提交 到 ResourceManager 上 。ResourceManager 收 到 请 求 后 会 为 
ApplicationMaster 寻找 合适 的 节点 ,并 在 该 节点 上 启动 它 。 

2. 编写 ApplicationMaster 


ApplicationMaster 需要 与 ResoureManager 和 NodeManager 交互 ,具体 步骤 如 下 。 

(1) 注册 。ApplicationMaster 首先 需要 通过 RPC 协议 AMRMProtocol 向 
ResourceManager 发 送 注册 请 求 RegisterApplicationMasterRequest, 该 数据 结构 中 包 
fr ApplicationMaster 所 在 节点 的 host, RPC port 和 TrackingUrl 等 信息 而 
ResourceManager 将 返回 RegisterApplicationMasterResponse, 该 数据 结构 中 包含 多 种 信 
息 ,包括 该 应 用 程序 的 ACL 列表 ,资源 可 使 用 上 限 和 下 限 等 。 

(2) 申请 资源 。 根 据 每 个 任务 的 资源 需求 ,ApplicationMaster 向 ResourceManager Hi 
请 一 系列 用 于 运行 任务 的 Container, ApplicationMaster 使 用 ResourceRequest 类 描述 每 个 
Container, 一 旦 为 任务 构造 了 Container. ApplicationMaster 就 会 使 用 RPC 函数 
AMRMProtocol # allocate 向 ResourceManager 发 送 一 个 AllocateRequest 对 象 , 以 请 求 分 
配 这 些 Container, ResourceManager 会 为 ApplicationMaster 返回 一 个 AllocateResponse 
对 象 ,该 对 象 中 的 主要 信息 包含 在 AMResponse 中 ,ApplicationMaster 会 不 断 追 踪 已 经 获 
取 的 Container, 且 只 有 当 需 求 发 生变 化 时 才 允 许 重 新 为 Container 申请 资源 。 

(3) 启动 Container。 当 ApplicationMaster 从 ResourceManager 收 到 新 分 配 的 
Container 列表 后 ,使 用 RPC 函数 ContainerManager # startContainer 向 对 应 NodeManager 
发 送 ContainerLaunchContext 以 启动 Container. 

ApplicationMaster 不 断 重复 步骤 (2) 和 步骤 (3), 直 到 所 有 任务 运行 成 功 , 它 会 调用 
AMRMProtocol # finishApplicationMaster, 以 告诉 ResourceManager 自己 运行 结束 。 

下 面 是 一 个 运行 在 YARN 上 的 简单 程序 。 设 定 场景 是 在 YARN 上 启动 一 个 shell fi 
令 , 启 动 的 AM(CApplicationMaster) 是 一 个 不 被 管理 的 AM, 采 用 上 面 描述 的 YARN 程序 
启动 步骤 编写 。 

首先 初始 化 一 个 YARN Client: 








public boolean init(String[ ] args) throws ParseException { 


Options opts = new Options(); 
opts.addOption("appname", true, 
"Application Name. Default value — UnmanagedAM"); 
opts.addOption("priority", true, "Application Priority. Default 0"); 
opts.addOption("queue", true, 
"RM Queue in which this application is to be submitted"); 
opts.addOption("master memory", true, 
"Amount of memory in MB to be requested to run the" 
"application master"); 

opts.addOption("cmd", true, "command to start unmanaged" 
"AM (required)"); 
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opts.addOption("classpath", true, "additional classpath"); 
opts.addOption("help", false, "Print usage"); 
CommandLine cliParser = new GnuParser().parse(opts, args); 


if (args.length == 0) { 
printUsage(opts) ; 
throw new IllegalArgumentException( 
"No args specified for client to initialize"); 


if (cliParser. hasOption("help")) { 
printUsage(opts) ; 
return false; 


appName = cliParser. getOptionValue("appname", "UnmanagedAM" ) ; 


amPriority = Integer. parseInt(cliParser. getOptionValue("priority", "0")); 


amQueue = cliParser. getOptionValue("queue", "default") ; 
classpath = cliParser. getOptionValue("classpath", null); 


amCmd = cliParser. getOptionValue("cmd") ; 
if (amCmd == null) { 
printUsage(opts) ; 
throw new IllegalArgumentException( 
"No cmd specified for application master"); 


YarnConfiguration yarnConf - new YarnConfiguration(conf); 
rmClient = YarnClient. createYarnClient(); 
rmClient. init(yarnConf); 


return true; 





1E YARN 上 启动 一 个 AMCApplicationMaster) : 








public void launchAM(ApplicationAttemptId attemptId) 
throws IOException, YarnException ( 
Credentials credentials = new Credentials(); 
Token < AMRMTokenldentifier? token = 
rmClient. getAMRMToken(attemptId. getApplicationId()); 


// Service will be empty but that's okay, we are just passing down only 


// AMRMToken down to the real AM which eventually sets the correct 

// service- address. 

credentials. addToken(token. getService(), token) ; 

File tokenFile = File. createTempFile("unmanagedAMRMToken","", 
new File(System. getProperty("user. dir") )); 

try { 
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FileUtil.chmod(tokenFile.getAbsolutePath(), "600"); 
} catch (InterruptedException ex) { 
throw new RuntimeException(ex); 
) 
tokenFile.deleteOnExit(); 
DataOutputStream os = new DataOutputStream(new FileOutputStream(tokenFile, 
true)); 
credentials. writeTokenStorageToStream(os) ; 
os.close(); 


Map < String, String» env = System. getenv(); 
ArrayList < String> envAMList = new ArrayList < String>(); 
boolean setClasspath = false; 
for (Map. Entry < String, String» entry : env. entrySet()) { 
String key = entry. getKey(); 
String value = entry. getValue(); 
if (key. equals("CLASSPATH")) ( 
setClasspath = true; 
if(classpath != null) { 
value = value + File. pathSeparator + classpath; 


} 


envAMList.add(key + "=" + value); 


if(!setClasspath && classpath!= null) { 
envAMList. add( "CLASSPATH = " + classpath); 


} 
ContainerId containerId = ContainerId. newContainerId(attemptId, 0); 


String hostname = InetAddress. getLocalHost().getHostName( ) ; 
envAMList.add(Environment. CONTAINER ID.name() + "=" + containerId) ; 
envAMList. add(Environment.NM_HOST. name() + "=" + hostname); 
envAMList.add(Environment.NM HTTP PORT.name() + "=0"); 
envAMList.add(Environment.NM PORT.name() + "=0"); 
envAMList.add(Environment.LOCAL DIRS.name() * "- /tmp"); 
envAMList.add(ApplicationConstants.APP SUBMIT TIME ENV * " 
* System.currentTimeMillis()); 
envAMList. add (ApplicationConstants. CONTAINER TOKEN FILE ENV NAME + 
tokenFile.getAbsolutePath()); 





String[] envAM = new String[ envAMList. size()]; 
Process amProc = Runtime. getRuntime().exec(amCmd, envAMList. toArray(envAM)); 


final BufferedReader errReader - 
new BufferedReader(new InputStreamReader( 
amProc.getErrorStream(), Charset. forName("UTF - 8"))); 
final BufferedReader inReader - 
new BufferedReader(new InputStreamReader( 
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amProc. getInputStream(), Charset. forName("UTF — 8"))); 


// read error and input streams as this would free up the buffers 
// free the error stream buffer 
Thread errThread - new Thread() ( 
GOverride 
public void run() { 
try { 
String line = errReader. readLine(); 
while( (line != null) && ! isInterrupted()) { 
System. err. println(line); 
line - errReader. readLine(); 
) 
) catch(IOException ioe) ( 
LOG. warn("Error reading the error stream", ioe); 


} 
}; 
Thread outThread = new Thread() { 
@Override 
public void run() { 
try ( 
String line = inReader. readLine(); 
while((line != null) && !isInterrupted()) { 
Systen. out. println(line); 
line = inReader. readLine(); 
) 
} catch(IOException ioe) { 
LOG. warn("Error reading the out stream", ioe) ; 


} 
h 
try ( 
errThread. start(); 
outThread. start(); 
} catch (IllegalStateException ise) ( } 


// wait for the process to finish and check the exit code 
try ( 

int exitCode = amProc.waitFor(); 

LOG. info("AM process exited with value: " + exitCode) ; 
} catch (InterruptedException e) { 

e. printStackTrace( ) ; 
) finally { 

amCompleted - true; 


try { 
// make sure that the error thread exits 
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// on Windows these threads sometimes get stuck and hang the execution 
// timeout and join later after destroying the process. 
errThread. join(); 
outThread. join(); 
errReader. close(); 
inReader.close(); 
) catch (InterruptedException ie) ( 
LOG. info("ShellExecutor: Interrupted while reading the error/out stream", ie); 
) catch (IOException ioe) ( 
LOG. warn("Error while closing the error/out stream", ioe); 
} 


amProc. destroy() ; 











bin/hadoop jar /home/user/yarn - 0. 0.1. jar alibook. yarn. UnmanagedAMLauncher - cmd "cat /etc/ 
hosts" 











INFO yarn.Unmanage 

INFO yarn.Unmanage 
client 
yarn.Unmanag 
yarn.Unmanage 
yarn.Unman 
impl.YarnCl 
yarn.Unm 


tTime a D, d ngUrl=N/A 
03:01:26 INFO auncher: La t ppattempt 14 





图 13-10 YARN 应 用 运行 结果 





l. 集群 资 泊 -管理 系统 需要 支持 多 种 计算 框架 ,介绍 系统 应 具备 的 
2. 简要 介绍 slot 作业 的 分 类 。 

相 比 于 “一 个 计算 框架 一 个 集群 的 模式 ”, 简 述 
4. 简 述 分 布 式 计算 领域 的 资源 调度 策略 。 

简 述 YARN 的 工作 机 制 





ol 群 模式 的 三 个 优 
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综合 实践 : 在 OpenStack 平 台 
上 搭建 Hadoop 并 进 行 数据 分 析 


为 了 有 效 地 演示 实验 ,更 好 地 使 理论 与 实验 相 结合 ,这 里 采用 的 是 OpenStack 搭建 一 
个 模拟 的 云 平 台 环境 ,并 在 上 面 搭建 大 数据 分 析 平 台 Hadoop, 很 好 地 结合 了 云 计 算 与 大 数 


14.1 OpenStack 简介 


OpenStack 是 一 个 旨 在 为 公共 及 私有 云 的 建设 与 管理 提供 软件 的 开源 项 目 。 为 了 有 效 
地 支撑 公有 云 建设 ,OpenStack 提供 如 下 几 个 服务 。 

(1) 基本 服务 : Dashboard Horizon 提供 了 一 个 基于 Web 的 自 服务 门户 ,与 OpenStack 底 
层 服务 交互 ,诸如 启动 一 个 实例 ,分 配 全 地址 以 及 配置 访问 控制 。Compute Nova 在 
OpenStack 环境 中 计算 实例 的 生命 周期 管理 。 按 需 响 应 包括 生成 .调度 .回收 虚拟 机 等 操作 。 
Networking Neutron 确保 为 其 他 OpenStack 服务 提供 网 络 连接 即 服务 .比如 OpenStack 计算 。 
为 用 户 提供 API 定 义 网 络 和 使 用 。 基 于 插件 的 架构 支持 众多 的 网 络 提供 商 和 技术 。 

(2) 存储 服务 : Object Storage Swift 是 一 种 可 伸缩 的 对 象 存 储 系统 ,使 用 Rest API 接 
口 来 访问 数据 。 它 拥有 高 容错 机 制 , 基 于 数据 复制 和 可 扩展 架构 。 通 过 多 次 备份 数据 以 及 
数据 的 自动 修复 ,可 以 保证 数据 的 稳定 。Block Storage Cinder 为 运行 实例 而 提供 持久 性 块 
存储 。 它 的 可 插 拔 驱动 架构 的 功能 有 助 于 创建 和 管理 块 存储 设备 。 

(3) 共享 服务 : Identity service Keystone 为 其 他 OpenStack 服务 提供 认证 和 授权 服 
务 ,为 所 有 的 OpenStack 服务 提供 一 个 端点 目录 。Image service Glance 存储 和 检索 虚拟 机 
磁盘 镜像 ,OpenStack 计算 会 在 实例 部 署 时 使 用 此 服务 。 


云 计算 与 大 数据 技术 





这 几 大 服务 需要 安装 在 不 同 的 服务 器 节点 上 ,安装 方案 一 般 如 图 14-1 所 示 , 分 为 控制 
器 节点 、. 计 算 节 点 、 块 存储 节点 和 对 象 存储 节点 等 几 部 分 ,每 个 节点 将 安装 在 独自 的 服务 器 
上 。 值 得 注意 的 是 ,控制 节点 和 计算 节点 都 需要 两 个 NIC(Networking Interface, 也 就 是 说 
需要 两 个 网 卡 ,一 个 负责 对 客户 端 开 放 , 另 一 个 用 来 管理 OpenStack 自身 的 服务 ) 。 
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FA 14-1 OpenStack 安装 实例 


14.2 OpenStack 的 安装 及 配置 


为 了 简化 以 及 演示 实验 的 效果 ,该 处 实验 配置 可 以 在 本 地 机 器 上 运行 ,实际 生产 环境 中 
的 OpenStack 配置 及 部 署 会 不 同 , 需 要 有 性 能 等 多 方面 的 考虑 。 本 地 机 器 上 运行 的 是 
CentOS 7 系统 。 

14.2.1 OpenStack 安装 准备 


1. 安装 VirtualBox 


从 https://www. virtualbox. org/wiki/Linux _ Downloads 下 载 CentOS 7 版 本 的 
VirtualBox RPM 包 文件 。 


2. 安装 VirtualBox 扩展 包 
从 地 址 http://download. virtualbox. org/virtualbox/5. 1.26/Oracle VM VirtualBox | 
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Extension Pack-5. 1. 26-117224. vbox-extpack 下 载 VirtualBox 5. 1. 26 Oracle VM VirtualBox 
Extension Pack, 下 载 完 成 之 后 ,双击 安装 即 可 。 

3. 下 载 Mirantis OpenStack(MOS ) 镜 像 

从 https://www. mirantis, com/software/openstack/download/ 下载 Mirantis OpenStack 
(MOS) 镜 像 , 如 图 14-2 所 示 。 


Mirantis OpenStack 
9.0 ISO 


DOWNLOA 





VIRTUALBOX SCRIPTS | CHECKSUM 


For information on how to upgrade, please contact your 
Mirantis account manager. 


图 14-2 下载 Mirantis OpenStack( MOS) Bi f$ 


4. FAX VirtualBox scripts 
本 文件 是 Linux F VirtualBox 自动 安装 MOS 的 脚本 ,脚本 中 默认 的 配置 如 图 14-3 所 
示 , 其 中 ,fuel-master 安装 fuel, 三 个 slave 节点 负责 安装 OpenStack 相关 服务 ,分 别 将 被 作 
为 Controller, Compute, Clinder 三 个 功能 节点 。 
管理 (F) 控制 (M) 。 帮助 (H) 


Q E w D v ORAO ”加 备份 [系统 快照 ](S) 
新 建 (N) GREG) 8 ET) 


(ed a 常规 (Eam 
[o gsm 


名 称 fuel-master 
操作 系统 :Red Hat (64-bit) 


系统 
内 存 大 小 ”1536 MB 
HERO 2 


BuU. ER HE, 网 络 
硬件 加 速 : VTX/AMD-V, HERAITI, PAE/ 





NX, KVM 半 虚 拟 化 

回 ar V 
星 存 大 小 : 16MB 
远程 桌面 服务 器 。 已 禁用 
录像 : 已 禁用 
存储 
控制 器 : IDE 

第 一 DE 控制 器 主 通 道 : DOR] 没有 盘 片 
控制 器 : SATA 

SATA 端口 0: fuel-master_0.vdi (838, 64.00 GB) 
n se 


图 14-3 脚本 的 默认 配置 
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单 击 VIRTUALBOX SCRIPTS 下 载 即 可 ,如 图 14-4 所 示 。 


Mirantis OpenStack 
9.0 ISO 


DOWNLOAD NOW 


VIRTUALBOX SCRIPTS | CHECKSUM 


For information on how (Owpgrade, please contact your 
Mirantis account manager. 
图 14-4 MOS 自动 安装 脚本 
至 此 准备 阶段 结束 。 
14.2.2 OpenStack 在 线 安装 
(1) 依据 硬件 条 件 , 选 择 不 同 的 安装 脚本 。 





8GB RAM -> launch. sh 
16GB RAM 一 > launch 8GB. sh 





(2) 运行 脚本 ,进行 fuel 的 全 自动 安装 。 

CD 在 终端 中 打开 VirtualBox Scripts 所 在 目录 

© 依据 上 一 步 的 选择 的 脚本 ,在 终端 中 输入 : . /launch. sh 或 者 . /launch_8GB. sh. 
(3) 正式 安装 过 程 。 

如 图 14-5 所 示 为 安装 过 程 的 效果 截图 。 





图 14-5 安装 过 程 1 


同时 会 弹出 VirtualBox 的 运行 窗口 ,如 图 14-6 一 图 14-8 所 示 。 
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图 14-8 安装 过 程 4 


14.2.3 搭建 OpenStack 中 的 虚拟 机 


在 安装 完成 OpenStack 之 后 ,还 需要 搭建 第 二 层 的 虚拟 机 ,而 这 就 需要 Dashboard 和 
Glance 两 个 服务 了 

首先 ,使 用 qmenu-img 制作 qcow2 格式 的 镜像 

(1) 在 官方 网 站 下 载 Ubuntu 14. 04 ISO 镜像 

(2) 使 用 qemu-img 工具 创建 一 个 虚拟 硬盘 : qemu-img create -f qcow2 


/tmp/trusty. 
qcow2 10G, 


(3) LA ISO 文件 作为 cdrom.qcow2 文件 作为 第 一 块 虚 拟 硬盘 ,启动 虚拟 机 : 





virt- install -- virt- type kvm -- name trusty —- ram 1024 V 
—- cdrom = /data/isos/trusty- 64 — mini. iso V 

—- disk /tmp/trusty. qcow2, format = qcow2 V 

—- network network = default V 

—- graphics vnc, listen = 0.0.0.0 -- noautoconsole V 


-- os- type = linux —— os - variant = ubuntutrusty 











(4) 进入 安装 界面 ,进行 相关 配置 ,比如 时 区 、 键 盘 映 射 .语言 等 

(5) 安装 程序 会 识别 虚拟 机 的 虚拟 硬盘 , 即 qcow2 文件 ,映射 为 /dev/vda, 并 进入 分 区 
引导 界面 。 

(6) 分 区 完成 后 ,开始 复制 操作 系统 所 需要 的 文件 

CO 用 户 自 定义 设置 ,包括 创建 用 户 、 预 装 程序 。 

(8) 安装 grub 引导 程序 ,退出 重启 ,此 时 操作 系统 已 经 安装 到 qcow2 虚拟 硬盘 中 。 
(9) 从 硬盘 启动 ,进入 虚拟 机 ,安装 cloud-init、growpart、qemu-guest-agent 等 工具 





Zu 
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(10) 删除 虚拟 机 ,只 需要 保留 qcow2 虚拟 硬盘 文件 ,镜像 制作 完成 。 

AD 上 传 gcow2 到 glance 中 即 可 。 

然后 ,从 Dashboard 中 启动 镜像 。 

主要 有 以 下 三 种 启动 方式 。 

(1) 从 image 启动 (boot from image); 

(2) 从 volume # Ja 3) (boot from volume); 

(3) M image 启动 并 挂 载 一 个 volume 2 A % (Boot instance from image and attach 


non-bootable volume) 。 


14.3 大 数据 环境 安装 


在 安装 完 OpenStack 并 安装 OpenStack 之 上 的 虚拟 机 镜像 之 后 ,在 上 面 搭 建 大 数据 分 
析 平 台 。 

当前 的 大 数据 分 析 任 务 主 要 采用 Hadoop 和 Spark 相 结合 的 方式 作为 运行 平台 ,其 中 ， 
Spark 利用 HDFS 作为 大 数据 分 析 输 入 源 以 及 利用 Y ARN 作为 Spark 分 析 任 务 的 资源 调 
度 器 。 本 章 主要 为 了 从 实践 的 角度 讲述 如 何 结合 大 数据 分 析 工 具 进 行 大 数据 分 析 , 所 讲解 
的 例子 既 可 以 使 用 Hadoop, 也 可 以 使 用 Spark, 因 为 相关 的 函数 调用 上 述 两 种 大 数据 系统 
都 可 以 实现 。 为 了 不 再 增加 部 署 Spark 的 麻烦 ,本 章 实 践 部 分 主要 采用 Hadoop 作为 运行 
环境 ,操作 系统 环境 为 CentOS 7.2, 所 以 下 面 讲 述 Hadoop 的 安装 。 


14.3.1 Java 安装 


Hadoop 是 一 个 大 数据 分 析 框 架 ,集成 了 分 布 式 文件 系统 HDFS、 分 布 式 资源 调度 系统 
YARN 以 及 分 布 式 计 算 框架 MapReduce。Hadoop 主要 采用 Java 语言 编写 ,运行 在 Java 
虚拟 机 上 面 。 所 以 为 了 运行 Hadoop, 需 要 在 所 有 运行 Hadoop 的 机 器 上 安装 Java. 
CentOS 7. 2 自 带 OpenJDK ,但 是 为 了 更 好 地 调试 以 及 开发 ,建议 采用 Oracle 的 JDK 工具 
包 。 具体 下 载 地 址 为 : http://www. oracle. com/technetwork/java/javase/downloads/ 
index. html, 

这 里 下 载 的 是 JDK 1.8.0. fk JDK 到 指定 目录 并 更 改 环境 变量 。 安 装配 置 Java 采用 
具体 命令 如 下 。 





tar xvf /mnt/disk1/user/software/jdk — 8u101- linux- x64. tar.gz —C /usr/lib/jvm 


export JAVA HOME = /usr/lib/jvm/jdk1.8.0 101/ # 添加 改行 到 /etc/profile 文件 中 





或 者 采用 如 下 配置 符号 链接 方式 安装 Java, 具 体 命令 如 下 。 





sudo update - alternatives —- install /usr/bin/java java /usr/lib/jvm/jdk1.8.0 101/bin/java 
1000 # 安装 java 命令 符号 链接 
sudo update- alternatives —- install /usr/bin/javac javac /usr/lib/jvm/jdk1.8.0 101/bin/| 
javac 1000 ERE javac 命令 符号 链接 
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sudo update - alternatives —— install /usr/bin/jps jps /usr/1ib/jvm/jdk1. 8. 0 101/bin/jps 
1000 # 安装 jps 命令 符号 链接 
sudo update - alternatives —-— install /usr/bin/jar jar /usr/lib/jvm/jdk1. 8.0 101/bin/jar| 
1000 ERE jor 命令 符号 链接 
输入 如 下 命令 测试 Java 安装 是 否 成 功 。 
java - version 
输出 如 图 14-9 所 示 ,表示 Java 安装 成 功 。 


14. 


接 下 


tie Sie ]$ java -version 
java version "1.8.0 101' 
Java(TM) SE Runtime Environment (build 1.8.0 101-b13) 


Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode 
29 ee i$ 





图 14-9 Java 安装 验证 


3.2 Hadoop 安装 


来 就 是 安装 Hadoop 运行 环境 。 从 Hadoop 官网 上 下 载 Hadoop 的 软件 包 , 这 里 以 


Hadoop-2. 7. 3 为 运行 环境 ,具体 下 载 地 址 为 : https://archive. apache. org/dist/hadoop/ 


core/ 。 


执行 


解压 命令 ,解压 到 具体 的 目录 : 








tar xvf /home/user/hadoop - 2.7.3.tar.gz — C opt 








操作 


本 章 
用 多 台 真 
环境 ,其 
设置 网 络 





的 命令 如 图 14-10 所 示 。 


Vil? ~]$ tar xvf /home/.... :…Vhadoop-2. 





图 14-10 Hadoop 安装 


为 了 实验 演示 的 需要 ,所 以 采用 Hadoop 集群 安装 的 方式 ,其 中 集群 的 安装 可 以 使 
实物 理 服务 器 ,也 可 以 使 用 虚拟 机 安装 多 个 Linux 系统 虚拟 机 来 实践 多 节点 集群 
P ,虚拟 机 集群 安装 方式 跟 多 台 真 实物 理 环境 类 似 , 不 同 之 处 是 虚拟 机 环境 中 需要 
,保证 多 台 虚 拟 机 之 间 可 以 网 络 SSH 连接 。 本 章 实验 这 里 有 三 台 真 实 的 物理 服务 





器 ,所 以 采用 真实 物理 节点 集群 环境 安装 。 为 了 达到 Hadoop 集群 环境 安装 ,需要 更 改 配置 
文件 ,具体 需要 配置 HDFS 集群 和 YARN 集群 信息 ,包括 NameNode, DataNode 等 端口 信 


d. em 


AM o 





节点 配置 如 下 。 








NameNode: dell118 

DataNode: del1118,del1119,del1120 
ResourceManager: delll118 
NodeManager: de11118,de1119,de11120 








ys 


TH 


A 
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P ,dell118 dell119 .dell120 为 主机 的 名 








4-11 一 图 14-13 是 当前 的 各 个 配置 文件 





<!-- Put site-specific property overrides in this file. --> 


|«configuration» 
«property» 
<name>hadoop. tmp. dir</name> 
«value»file:/home/, .-. _-:/opt/hadoop/tmp</value> 
<description>Abase for other temporary directories.</description> 
</property> 
<property> 
<name>fs. defaultFS</name> 
«value»hdfs: //dell118:9000-/value» 
</property> 
</configuratior 





图 14-11 core-site. xml 配置 文件 


k!-- Put site-specific property overrides in this file. --> 


«configuration» 
i<property> 
<name>dfs. replicationc/name» 
<value>3</value> 
</property> 
<property> 
<name>dfs .namenode. secondary .http-address«/name» 


<property> 

<name>dfs .namenode.name.dir</name> 

<valu : ;* c/opt/hadoop/tmp/dfs/namec/value» 
</property> 
<property> 

<name>dfs .datanode.data.dir</name> 

«value»file:/home/:— . - :/opt/hadoop/tmp/dfs/data</value> 
</property> 





k/configuration> 


图 14-12 hdfs-site. xml 





图 14-13 yarn-site. xml 
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执行 如 下 命令 ,如 图 14-14 所 示 ,格式 化 HDFS 文件 系统 。 
启动 Hadoop 集群 ,如 图 14-15 所 示 。 


s namenode 





hadoop]S ./sbin/start-all.sh 


图 14-14 格式 化 HDFS 文件 系统 图 14-15 启动 Hadoop 集群 


查看 Hadoop 集群 系统 状态 ,如 图 14-16 所 示 。 


dfsadmin rt 
ader: Unable to load native 


datanode 





图 14-16 HDFS 集群 状态 
HDFS 集群 状态 如 图 14-17 所 示 。 


Hadoop Overview Datanodes DatanodeVolume Fallures Snapshot 


Startup Progress 





Overview 'dell118:9000' (active 


Started: 
Version: 


Compiled: 






Cluster ID: feübd 


Block Poo! ID: BP-1963637. 





图 14-17 HDFS 集群 信息 网 页 显示 
YARN 集群 状态 显示 如 图 14-18 所 示 。 


Cluster Metrics 





Apps Apps App ‘ontainers Memory M. 
d Pending Running Completed ^ Running 








Show 20 + entres 


Search: 


D To User Name 
application 14880919 





Tracking Blacklisted 





History N/A 





application 1488091925119 0024 yangyars watti 





MAPREDUCE default 


plication 1485091975119 0023 yangyaru sho 





图 14-18 YARN 集群 网 页 显示 信息 
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14.4 大 数据 分 析 案 例 


前 面 讲述 了 如 何 安装 和 部 署 Hadoop 环境 ,下 面 从 几 个 案例 来 具体 说 明 Hadoop 在 大 
数据 分 析 中 的 应 用 ,具体 包括 日 志 分 析 、 电 商 购买 记录 分 析 和 交通 流量 分 析 。 


14.4.1 日 志 分 析 


大 规模 系统 每 天 会 产生 大 量 的 日 志 , 日 志 是 企业 后 台 服 务 系统 的 重要 组 成 部 分 ,企业 每 
天 通过 日 志 分 析 监 控 可 以 及 时 地 发 现 系 统 运行 中 出 现 的 问题 ,从 而 尽量 将 损失 减 小 到 最 少 。 
由 于 企业 中 的 日 志 数 据 一 般 规模 比较 庞大 ,需要 Hadoop 这 样 的 大 数据 处 理 系统 来 处 理 大 
量 的 日 志 。 

下 面 以 一 个 运行 一 段 时 间 的 Hadoop 集群 产生 的 日 志文 件 为 例 来 说 明 使 用 Hadoop 来 
进行 日 志 分 析 的 过 程 。 现 在 我 们 有 URGERE 文件 ,需要 找 出 WARN 级 别 的 日 志 
,输出 结果 信息 包括 日 志文 件 中 的 行 号 和 日 志 :记录 内 和 f. 

该 问题 的 解决 方法 是 采用 类 似 Grep 的 方法 ,在 Map 阶段 对 输入 的 每 条 日 志 记 录 匹 配 
查找 ,如 果 有 匹配 关键 字 WARN, 则 产生 < 行 号 ,记录 内 容 > 这 样 的 key-value 键 值 对 ; 在 
Reduce 阶段 , 则 基本 不 采取 任何 操作 ,只 是 把 所 有 的 key-value 键 值 对 输出 到 HDFS X 
件 中 。 

其 中 ,关键 部 分 代码 如 图 14-19 所 示 














记录 


public static class MyMapper extends Mapper<LongWritable, Text, LongWritable, Text> { 
public void map(LongWritable linenumber, Text line, Context context) 
throws IOException, InterruptedException { 
String pattern = context.getConfiguration().get("grep"); 


String linecontent = line.toString(); 
if (linecontent.index0f(pattern) == -1) { 
return ; 


} 


context.write(linenumber, line); 
} 
H 


public static class MyReducer extends Reducer<LongWritable, Text, LongWritable, Text» ( 
public void reduce(LongWritable linenumber, Iterable<Text> line, Context context) 
throws IOException, InterruptedException { 
for (Text element : line) { 


context.write(linenumber, element); 


) 





图 14-19 Map 和 Reduce 关键 代码 


详细 完整 的 代码 和 数据 可 以 从 GitHub 上 下 载 (https://github. com/bdintro/bdintro. 
git) 。 

编译 源 代 码 采 用 mvn package 的 方式 ,测试 数据 为 hadoop-user-datanode-delll19. 
log. zip。 

在 测试 之 前 先 把 对 应 数据 上 传 到 HDFS 集群 中 ,把 使 用 mvn package 编译 好 的 jar X 
件 复 制 到 Hadoop 集群 节点 上 ,当前 测试 为 复制 到 dell119 机 器 上 。 


m 云 计 算 与 大 数据 技术 


启动 如 图 14-20 所 示 命 令 ,执行 日 志 分 析 任 务 。 


./bin/hdfs dfs Juser/root/log/output 


./bin/hadoop jar /home/qzhong/bigdata-0.0.1. jar 
bigdata.bigdata.Grep 
WARN 
/user/ root/log/input/hadoop-yangyaru-datanode-dellli9.log 
liuser/root/1og/output 





图 14-20 日 志 分 析 任 务 命令 





运行 结果 图 14-21 所 示 ,图 中 左边 是 原始 日 志文 件 中 对 应 WARN 记录 的 行 
对 应 WARN 级 别 日 志 记录 的 具体 内 容 


409104 2017-02-24 04:05:46,056 WARN org. apache.hadoop. server.datanode.DataNode: Problem connecting 
411577 2 04:06:01,064 WARN apache. hadoop server.datanode.DataNode: Problem connecting 
- 04:06:16,071 WARN org,apache.hadoop.h datanode.DataNode: Problem connecting to server 
04:06:31,079 WARN org. apache. hadoop.h r.datanode.DataNode: Problem connecting to server 
[5 ,086 WARN org hadoop datanode.DataNode: Problem connecting 
04 093 WARN org hadoop. ver.datanode.DataNode: Problem connecting 
04:07:16,100 WARN org e.hadoop.h datanode.DataNode: Problem connecting 
04 ,108 WARN org — datanode .DataNode connecting 
04:17:55,462 WARN hadoop. datanode.DataNode 
06 584 WARN e.hadoop hi er .datanode.Datalode 
07:26:16,723 WARN .hadoop server datanode, DataNode c 
o8 3 WARN hadoop server. datanode. DataNode offerService 
22 269 WARN org. apache.hadoop server.datanode.DataNode c offerService 
215 WARN org. apache. hadoop server.datanode.DataNode: IOExcept offerService 


图 14-21 部 分 运行 结果 


at 
i 





14.4.2 电 商 购买 记录 分 析 


当前 电子 商务 快速 发 展 ,大 量 的 用 户 开始 在 网 上 进行 购物 。 各 大 电 商 为 了 更 好 地 给 用 
户 推荐 商品 ,会 将 用 户 的 购买 行为 记录 下 来 。 电 商 平台 存储 了 大 量 用 于 挖掘 产生 价值 的 数 
据 , 单 台 物 理 服务 器 无 法 完成 分 析 大 量 数据 的 任务 ,因此 需要 部 署 大 规模 大 数据 分 析 系 统 来 
完整 电 商 购买 记录 分 析 。 

下 面 是 一 个 电 商 平台 的 部 分 用 户 购买 记录 数据 ,利用 上 
述 搭建 的 简易 的 ipid 运行 平台 ,分 析 得 出 每 个 商家 
的 成 交 量 信息 。 购 买 记录 为 一 个 CSV 格式 文件 ,数据 的 格 
式 为 < 用 户 ID ,商家 ID, 日 期 ,时 间 >, 前 面 三 个 字段 采用 逗号 
分 隔 , 最 后 面 的 一 个 字段 采用 空格 分 隔 , 部 分 数据 格式 如 
图 14-22 所 示 。 图 14-22 电 商 数据 示意 图 

采用 Hadoop 的 liso ed 来 进行 商家 每 天 的 成 交 
分 析 。 在 Map 阶段 对 于 每 个 输入 的 购买 记录 信息 分 隔 , 产 生 key 为 < 商家 ID, 日 期 > 和 
value 为 1 的 键 值 对 ; 在 Reduce 段 对 于 相同 的 key < 商家 ID, 日 期 > 的 进行 合并 。 

关键 代码 如 图 14-23 Bron 。 

完整 的 代码 可 以 在 GitHub 上 下 载 (https://github. com/bdintro/bdintro. git). Wi 
数据 为 shop. txt. zip。 

在 测试 之 前 需要 先 上 传 shop. txt 文件 到 HDFS 集群 中 ,利用 mvn package 生成 的 jar 
文件 ,执行 如 下 命令 ,如 图 14-24 Pros 
































public static 


priva 


public 


图 14-23 


/bin/ 


/bin/ha 


图 14-24 
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了 结果 如 图 14-25 所 示 





day». 


现在 车 辆 迅速 增多 ,交通 产 
拥堵 时 间 ,需要 有 效 地 利用 交通 数据 
违规 的 数据 信息 
的 数据 是 csv 格式 文件 ,详细 的 交通 流量 数据 格式 描述 如 网 站 所 述 (https:/ 


现在 有 交通 





综合 实践 : OpenStacky 





Iterab 
Interrupt 


t key, 


tion, 


商家 成 交 





台 上 搭建 Hadoop 并 进行 数据 分 析 





IntWritable» { 


ontext context) 


ates, 





shop/output 


bigdata-0 
data 


1.jar 
y 


shop/input/shop.txt 


shop/output 


03 
6-09-04 





14-25 


pr 


Y 





H 











执行 商家 成 交 信 息 分 析 命 令 


部 分 商家 成 交 统 计 信息 


交通 


交通 流量 


www. kaggle. 


com/jana36/us-traffic-violations-montgomery-county-polict) ,采用 MapReduce 的 方式 来 解 
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决 上 述 问题 。 在 Map 阶段 ,产生 < 日 期 .1 > 这 样 的 key-value 键 值 对 ; 在 Reduce 阶段 ,对 相 
同 的 日 期 做 总 数 相 加 统计 操作 。 
对 应 的 关键 代码 如 图 14-26 所 示 。 


r 
split(","); 
== null || words[@].charAt(@) > '« 


new IntWritable(1)); 
public static c 


private sta 


public 


result.set (sum); 
context.write(key, 





图 14-26 ”交通 违规 统计 关键 部 分 代码 


完整 的 代码 可 以 从 GitHub 上 下 载 (https://github. com/bdintro/bdintro. git) ,测试 数 
据 为 Traffic Violations. csv. zip。 采 用 maven 方式 编译 运行 的 jar 文件 ,方式 和 上 述 的 日 志 
分 析 、 电 商 购 买 记录 分 析 类 似 

为 了 执行 分 析 任 务 ,执行 如 下 命令 ,如 图 14-27 所 示 


/bin/hdfs dfs 
bin/hade 


c Violations 





图 14-27 ”交通 违规 任务 分 析 命令 


执行 结果 如 图 14-28 所 示 





图 14-28 交通 违规 任务 执行 部 分 结果 


a] 
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[5] 
[6] 
[7] 
[8] 
[9] 


参考 文献 


张 俊 林 . 大 数据 日 知 录 [MD .北京 : 电子 工业 出 版 社 ,2014. 
杨 巨 龙 .大 数据 技术 全 解 LM] .北京 : 电子 工业 出 版 社 ,2014. 
黄 宜 华 . 深入 理解 大 数据 LM]. 北京 : 机 械 工业 出 版 社 ,2014. 


赵刚 . 大 数据 技术 与 应 用 实践 指南 LM]. 北京: 


电子 工业 出 版 社 , 2013. 


李 军 .大 数据 从 海量 到 精准 LMJ. 北京 : 清华 大 学 出 版 社 ,2014. 

陈 工 孟 . 大 数据 导论 [MJ. 北京 : 清华 大 学 出 版 社 ,2015. 

汤 银 才 . RR 语言 与 统计 分 析 [MJ. 北京 : 电子 工业 出 版 社 ,2012. 

昌 云 翔 , 钟 巧 灵 , 衣 志 吴 . 大 数据 基础 及 应 用 [MJ. 北京 : 清华 大 学 出 版 社 , 2017. 


昌 云 翔 , 张 璐 , 王 佳 玮 . 云 计算 导论 [MJ. 北京: 


清华 大 学 出 版 社 , 2017. 


图 书 资源 支持 























感谢 您 以 来 对 清华 版 图 书 的 支持 和 爱护 。 为 了 配合 本 书 的 使 用 ,本 书 
提供 配套 的 资源 ,有 需求 的 读者 请 扫描 下 方 的 “ 书 圈 " 微 信 公 众 号 二 维 码 , 在 
书 专区 下 载 ,也 可 以 拨打 电话 或 发 送 电子 邮件 咨询 。 

如 果 您 在 使 用 本 书 的 过 程 中 遇 到 了 什么 问题 ,或 者 有 相关 图 书 出 版 计划 ， 
也 请 您 发 邮件 告诉 我 们 ,以 便 我 们 更 好 地 为 您 服务 。 

































































我 们 的 联系 方式 : 
地 址 : 北京 海淀 区 双 清 路 学 研 大 厦 A 座 707 





Art 


邮 编 : 100084 
电 话 : 010 一 62770175 一 4604 


资源 下 载 : http://www. tup. com. cn 





电子 邮件 : weijj@tup. tsinghua. edu. cn 


QQ: 883604( 请 写 明 您 的 单位 和 姓名 ) 





用 微 信 扫 一 扫 右 边 的 二 维 码 , 即 可 关注 清华 大 学 出 版 社 公 众 号 “ 书 圈 ”。 


